ライターが文章の癖を解析してみた

自分が書いた日記、ブログ、小説などをデータにして、文章の癖をテキストマイニングで解析してみました。解析の結果、どんな表現をよく使っているのかがわかったのでご報告します。

文章の特徴

文章の特徴はいろいろな種類が御座います。今回は、隣り合う品詞名の組み合わせ(通称:品詞のN-gram)を使って、文章を分析しています。

種類

研究などでよく使われる文章の特徴は、次のような項目があります。

  • 文の長さ
  • 単語の出現率
  • 読点の位置
  • 助詞の組み合わせ
  • 隣り合う品詞名の組み合わせ

分析に用いた特徴

今回は、5番目の隣り合う品詞名の組み合わせです。品詞のN-gram(エヌグラム)と呼ばれたりします。「私は鈴木です。」という文章を例にすると、「私」と「は」、などが隣り合う言葉になります。私:名詞、は:助詞なので、品詞名の組み合わせは、名詞と助詞、になります。これを名詞_助詞や名詞+助詞、というように書き表します。

分類

階層的クラスター分析という手法を使って、似ている文章を分類すると、下の画像のようになります。この樹形図をみると、ブログは青枠、日記が緑、小説赤、という具合に綺麗に分類されているのがわかります。つまり、分析に用いた文章の特徴(隣り合う品詞名の組み合わせ)が、ブログ・日記・小説で異なるということを示唆しています。

よく使う表現の品詞

品詞のN-gramを使うと、ブログ・日記・小説を分類できることはわかりましたが、具体的に、どのような品詞のN-gramで分類されているのか調べたいところです。
そこで、クラスター分析とは違う手法を使ってみたいと思います。その結果が下の画像になります。
この画像はCART分析の結果を出力した結果です。余談ですが、クラスター分析は教師なしの機械学習ですが、CART分析は、教師ありの機械学習となります。

下の画像をみると、動詞_句点のスコアが0.18より小さい時はブログ、大きい時は小説というように分類されているのがわかります。さらに、小説は、接続助詞_動詞が2.6ポイント以上の時日記、以下だと小説、と分類されています。

よく使う表現の単語

動詞_句点や接続助詞_動詞、といわれてもよくわからないので、単語で調べてみたいと思います。結果は下の表にまとめます。

表にある通り、ブログは動詞で終わる文章がとても少ないです。この記事のように、ですます、が文末にくるので、このような結果になっていると思います。

日記に多いのは、書いている、終わっている、やっているなどの表現です。その日起きたことを、このように表現するのが、私の癖のようです。

ブログ・日記・小説によく使われる表現の違い
特徴 文章
動詞_句点 ~思う。
飛びかかる。
~する。
ブログは少ない
日記・小説に多い
接続助詞_動詞 ~てしまう
~ている
~てくる
日記に多い
小説は少ない

まとめ

何気なく書いている日記やブログの記事、そして、自作の小説について、どんな文章の癖があるか調べました。特に意識していなくても、日記を書く時は、文末が動詞になり、~ている、という表現が多くなっていることがわかりました。

  • 自分で書いた3つの種類の文章を分析
  • 日記・ブログ・小説、それぞれ文体が異なる結果
  • ブログは「思う。」「する。」という表現が少ない
  • 日記は「~てしまう」「~ている」という表現が多い
Next Post Previous Post