データベース全文検索「ひまわり」とは【使い方】

文章のデータベース作成と全文検索を支援するソフト「ひまわり」をご紹介します。「ひまわり」を使えば、文章の高度な検索が可能となり、青空文庫の全文検索、自作テキストデータベースの作成などもできます。

ひまわりとは?

ひまわりは国立国語研究所で開発されたソフトウェアです。インストールから使用まで、すべて無料です。
データベースは、青空文庫の作品(14000作品以上)、国会議事録、Wikipediaなどが無償で公開されています。

特徴

このソフトの大きな魅力は、高度な検索、自分のオリジナルな文章データベースを作ることにあります。このソフトを使えば、自作の小説、ブログの記事、レビュー、ツイートなどなど、文章であればどんなものでも、データベース化することができます。

使い方

青空文庫の検索、文章のデーターベース化をご紹介します。

青空文庫の文章検索

下の画像は、公開されている『青空文庫』パッケージを使用し、雨、という単語で検索した結果です。特に、太宰治の作品に絞っています。この検索結果をダブルクリックすれば、ブラウザで全文が読めます

パッケージのテキストデータは形態素解析済みなので、検索キーワードの品詞などもわかります。

ひまわり検索結果

文章データベースの作成

文章をひまわりでデータベース化します。
下の画像は、データベースにした文章の検索画面です。「雨」で検索しています。

ひまわり検索画面

「雨」をダブルクリックすると、IEやchrome、firefoxなどのブラウザに全文が表示されます。下の画像は、chromeの画面です。「雨」が赤字になっています。

ひまわり文章表示画面

データベース作成時に形態素解析も可能なので、自作のデータベースであっても単語の品詞情報などを加えることができます。ただし、形態素解析ツール(MeCab)などのインストールが必要となります。

参考資料

ひまわりのマニュアルや参考文献です。

Next Post Previous Post