文章同一人物判定【TETDEMの紹介・類似度チェックツール】
TETDEMというソフトを使用すれば、似たような文章を簡単に探すことができます。TETDEMはパソコンへのインストールが必要なソフトですが、複数のテキストデータのコピペチェックができます。
TETDEMとは
TETDEMは大学で開発された無料で使用可能なテキストデータマイニングのソフトウェア(データ分析ツール)です。このツールを使えば、定量的に文章の類似度をチェックできます。
TETDEMは下記サイトからダウンロードできます。インストールは簡単です。ソフト自体は右メニューのTETDM統合環境(ダウンロード Download)からダウンロードできます。
文章比較結果
TETDEMの結果は、下の画像のようになります。この画像は、10個テキストデータを比較し、類似するものを線で結んでいます。SEG1などがひとつの文章(この記事では小説)を表しています。この結果から、SEG1と2、さらに、SEG3と4も似たような文章であると判定されていることがわかります。
準備したテキストデータ
TETDEMで類似度を調べるあたり、テキストデータを10個準備しました。1番目(SEG1)と2番目(SEG2)、そして、3番目(SEG3)と4番目(SEG4)は、多少文章表現などを変えていますが、内容はほぼ同じ作品です。この改稿した文章についてTETDEMの類似度を確認します。
やり方
類似度の分析はアプリケーションとしてあらかじめ準備されているため、簡単に実行できます。以下では、手順を説明します。
環境設定で拡張モードに変更
文章の類似度を確認するためには、TETDEMの環境設定で拡張モードを選択する必要があります。まずは、この設定を完了させます。
テキスト入力でフォルダを選択
メニューのテキスト入力でフォルダのアイコンを選び、比較したいテキストデータがすべて入ったフォルダを選択します。
もしも、文字化けしてしまう場合は、フォルダの選択時にファイルのタイプを日本語(UTF-8)に変更します。
ツールのセットのアプリでテキスト集合評価を選択
メニューのツールのセットにアプリという項目があり、これをクリックすると、別画面が立ち上がります。画面の中からテキスト集合評価を選択すると、下の画面のようになります。
アプリケーションのウィンドウでレポート評価を選択
上の画面で左下にあるレポート評価をクリックします。下の画像のような画面が現れたら、作業は完了です。
下の画像で真ん中にあるパネル3が類似度を表しています。青いゾーンは類似度が低く、赤いゾーンにいくほど類似度は高くなります。下の結果では、SEG(セグメント)1と2、そして、セグメント3と4が類似していて、なおかつ、その類似度が中程度であることを示しています。
一番右にあるパネル5の表には、独自性という項目があります。類似度が高いほど、独自性は低くなります。表をみると、セグメントの1番と2番の独自性がかなり低くなっていることがわかります。
参考文献
- 内容の独自性の視覚化によるレポートの独自性評価支援システム.pdf
TETDEMの文章類似度については、この論文で詳細が記述されています。