ライターが文章の癖を解析してみた
自分が書いた日記、ブログ、小説などをデータにして、文章の癖をテキストマイニングで解析してみました。解析の結果、どんな表現をよく使っているのかがわかったのでご報告します。
文章の特徴
文章の特徴はいろいろな種類が御座います。今回は、隣り合う品詞名の組み合わせ(通称:品詞のN-gram)を使って、文章を分析しています。
種類
研究などでよく使われる文章の特徴は、次のような項目があります。
- 文の長さ
- 単語の出現率
- 読点の位置
- 助詞の組み合わせ
- 隣り合う品詞名の組み合わせ
分析に用いた特徴
今回は、5番目の隣り合う品詞名の組み合わせです。品詞のN-gram(エヌグラム)と呼ばれたりします。「私は鈴木です。」という文章を例にすると、「私」と「は」、などが隣り合う言葉になります。私:名詞、は:助詞なので、品詞名の組み合わせは、名詞と助詞、になります。これを名詞_助詞や名詞+助詞、というように書き表します。
分類
階層的クラスター分析という手法を使って、似ている文章を分類すると、下の画像のようになります。この樹形図をみると、ブログは青枠、日記が緑、小説赤、という具合に綺麗に分類されているのがわかります。つまり、分析に用いた文章の特徴(隣り合う品詞名の組み合わせ)が、ブログ・日記・小説で異なるということを示唆しています。
よく使う表現の品詞
品詞のN-gramを使うと、ブログ・日記・小説を分類できることはわかりましたが、具体的に、どのような品詞のN-gramで分類されているのか調べたいところです。
そこで、クラスター分析とは違う手法を使ってみたいと思います。その結果が下の画像になります。
この画像はCART分析の結果を出力した結果です。余談ですが、クラスター分析は教師なしの機械学習ですが、CART分析は、教師ありの機械学習となります。
下の画像をみると、動詞_句点のスコアが0.18より小さい時はブログ、大きい時は小説というように分類されているのがわかります。さらに、小説は、接続助詞_動詞が2.6ポイント以上の時日記、以下だと小説、と分類されています。
よく使う表現の単語
動詞_句点や接続助詞_動詞、といわれてもよくわからないので、単語で調べてみたいと思います。結果は下の表にまとめます。
表にある通り、ブログは動詞で終わる文章がとても少ないです。この記事のように、ですます、が文末にくるので、このような結果になっていると思います。
日記に多いのは、書いている、終わっている、やっているなどの表現です。その日起きたことを、このように表現するのが、私の癖のようです。
特徴 | 例 | 文章 |
---|---|---|
動詞_句点 | ~思う。 飛びかかる。 ~する。 |
ブログは少ない 日記・小説に多い |
接続助詞_動詞 | ~てしまう ~ている ~てくる |
日記に多い 小説は少ない |
まとめ
何気なく書いている日記やブログの記事、そして、自作の小説について、どんな文章の癖があるか調べました。特に意識していなくても、日記を書く時は、文末が動詞になり、~ている、という表現が多くなっていることがわかりました。
- 自分で書いた3つの種類の文章を分析
- 日記・ブログ・小説、それぞれ文体が異なる結果
- ブログは「思う。」「する。」という表現が少ない
- 日記は「~てしまう」「~ている」という表現が多い