データベース全文検索「ひまわり」とは【使い方】
文章のデータベース作成と全文検索を支援するソフト「ひまわり」をご紹介します。「ひまわり」を使えば、文章の高度な検索が可能となり、青空文庫の全文検索、自作テキストデータベースの作成などもできます。
ひまわりとは?
ひまわりは国立国語研究所で開発されたソフトウェアです。インストールから使用まで、すべて無料です。
データベースは、青空文庫の作品(14000作品以上)、国会議事録、Wikipediaなどが無償で公開されています。
特徴
このソフトの大きな魅力は、高度な検索、自分のオリジナルな文章データベースを作ることにあります。このソフトを使えば、自作の小説、ブログの記事、レビュー、ツイートなどなど、文章であればどんなものでも、データベース化することができます。
使い方
青空文庫の検索、文章のデーターベース化をご紹介します。
青空文庫の文章検索
下の画像は、公開されている『青空文庫』パッケージを使用し、雨、という単語で検索した結果です。特に、太宰治の作品に絞っています。この検索結果をダブルクリックすれば、ブラウザで全文が読めます。
パッケージのテキストデータは形態素解析済みなので、検索キーワードの品詞などもわかります。
文章データベースの作成
文章をひまわりでデータベース化します。
下の画像は、データベースにした文章の検索画面です。「雨」で検索しています。
「雨」をダブルクリックすると、IEやchrome、firefoxなどのブラウザに全文が表示されます。下の画像は、chromeの画面です。「雨」が赤字になっています。
データベース作成時に形態素解析も可能なので、自作のデータベースであっても単語の品詞情報などを加えることができます。ただし、形態素解析ツール(MeCab)などのインストールが必要となります。
参考資料
ひまわりのマニュアルや参考文献です。
- 全文検索システム『ひまわり』利用者マニュアル
インストール方法から、検索のやり方、データベースの作り方(言語資料のインポート)が丁寧に説明されています。 - 全文検索システム『ひまわり』を用いた既存資料の活用.pdf
PDFの資料です。ひまわりのバージョンは少し古いですが、データベースの作り方(言語資料のインポート)について、詳しい説明があります。 - 全文検索システム『ひまわり』を利用した言語資料検索環境の構築手法.pdf
マンガの文章検索についても紹介があります。