文章同一人物判定【TETDEMの紹介・類似度チェックツール】

TETDEMというソフトを使用すれば、似たような文章を簡単に探すことができます。TETDEMはパソコンへのインストールが必要なソフトですが、複数のテキストデータのコピペチェックができます。

TETDEMとは

TETDEMは大学で開発された無料で使用可能なテキストデータマイニングのソフトウェア(データ分析ツール)です。このツールを使えば、定量的に文章の類似度をチェックできます。

TETDEMは下記サイトからダウンロードできます。インストールは簡単です。ソフト自体は右メニューのTETDM統合環境(ダウンロード Download)からダウンロードできます。

文章比較結果

TETDEMの結果は、下の画像のようになります。この画像は、10個テキストデータを比較し、類似するものを線で結んでいます。SEG1などがひとつの文章(この記事では小説)を表しています。この結果から、SEG1と2、さらに、SEG3と4も似たような文章であると判定されていることがわかります。

TETDEMの類似度分析結果

準備したテキストデータ

TETDEMで類似度を調べるあたり、テキストデータを10個準備しました。1番目(SEG1)と2番目(SEG2)、そして、3番目(SEG3)と4番目(SEG4)は、多少文章表現などを変えていますが、内容はほぼ同じ作品です。この改稿した文章についてTETDEMの類似度を確認します。

やり方

類似度の分析はアプリケーションとしてあらかじめ準備されているため、簡単に実行できます。以下では、手順を説明します。

環境設定で拡張モードに変更

文章の類似度を確認するためには、TETDEMの環境設定で拡張モードを選択する必要があります。まずは、この設定を完了させます。

テキスト入力でフォルダを選択

メニューのテキスト入力でフォルダのアイコンを選び、比較したいテキストデータがすべて入ったフォルダを選択します。
もしも、文字化けしてしまう場合は、フォルダの選択時にファイルのタイプを日本語(UTF-8)に変更します。

ツールのセットのアプリでテキスト集合評価を選択

メニューのツールのセットにアプリという項目があり、これをクリックすると、別画面が立ち上がります。画面の中からテキスト集合評価を選択すると、下の画面のようになります。

TETDEMのテキスト集合評価画面

アプリケーションのウィンドウでレポート評価を選択

上の画面で左下にあるレポート評価をクリックします。下の画像のような画面が現れたら、作業は完了です。

下の画像で真ん中にあるパネル3が類似度を表しています。青いゾーンは類似度が低く、赤いゾーンにいくほど類似度は高くなります。下の結果では、SEG(セグメント)1と2、そして、セグメント3と4が類似していて、なおかつ、その類似度が中程度であることを示しています。
一番右にあるパネル5の表には、独自性という項目があります。類似度が高いほど、独自性は低くなります。表をみると、セグメントの1番と2番の独自性がかなり低くなっていることがわかります。

TETDEMのレポート評価画面

参考文献

Next Post Previous Post