コーディング・ルールの作り方【KHCoder】

KHCoderのコーディング・ルールの作り方をご紹介します。

(c) KHCoder

コーディング・ルールとは

KHCoderのコーディングルールを使えば、独自の集計が可能になります。

例えば、「愛」「恋」「好き」のいずれかが含まれている文章、「愛」と「恋」のどちらも含む文章、などを集計することができます。

簡単な例

下記のコーディングルールは、「愛」「恋」「好き」のいずれかが含まれている文章を集計し、「恋愛」というラベル(凡例)でまとめています。

*恋愛
愛 or 恋 or 好き

文章抽出

ある単語を含む文(もしくは段落)の抽出です。
文や段落に含まれる単語の数は関係ありません。

単語指定

単語を指定する場合です。

*愛

品詞指定

単語は品詞を指定できます。

*コメ
米-->名詞C

*アメリカ
米-->地名

活用形指定

活用形を指定できます。指定しない場合、「買う」「買って」「買わず」の全てが集計されます。活用形の名称ではなく「買わ」などを指定することもできます。
また、活用形指定は品詞指定と組み合わせて使うこともできます。

*買う活用形1
買う->未然形

*買う活用形2
買う=>買わ

*買う品詞と活用形1
買う-->動詞->未然形

*買う品詞と活用形2
買う-->動詞=>買わ

複合語

卒業論文、安倍内閣などの複合語を含む文章の抽出です。

*卒業論文
卒業+論文

近接語

指定した範囲内にある単語と単語の組み合わせを抽出します。
下記コーディングルールの場合、「先生」の前後10語以内に「奥さん」がある文章が抽出されます。

[3]を追加すれば、3語以内になります。
[d]は段落を数えます。段落指定で単語数も指定する場合は[d3]と書きます。

*先生夫婦(省略気泡)
near(先生-奥さん)

*先生夫婦単語数指定
near(先生-奥さん)[3]

*先生夫婦段落指定
near(先生-奥さん)[d]

*先生夫婦段落指定かつ単語数指定
near(先生-奥さん)[d3]

順序指定

ある単語と、その単語の後に登場した単語の組み合わせを抽出します。
下記コーディングルールの場合、「先生」の後に登場した「奥さん」がある文章が抽出されます。

近接後同様、[3][d]が使えます。

*先生夫婦(省略気泡)
seq(先生-奥さん)

*先生夫婦単語数指定
seq(先生-奥さん)[3]

*先生夫婦段落指定
seq(先生-奥さん)[d]

*先生夫婦段落指定かつ単語数指定
seq(先生-奥さん)[d3]

文章長指定

文章に含まれる単語や文字の数で文章を抽出できます。

*10語以下
lw <= 10

*10語以上
lw >= 10

*10文字以下
lc <= 10

単語集計

文章に含まれる単語の集計です。

回数指定

単語が3回登場、2回以上などの回数指定です。
なお、スペースを外すと、コーディングルールとして機能しなくなります。

*愛3回
愛 == 3

*愛2回以上
愛 >= 2

複数の単語

単語を複数指定する場合です。

*愛と恋3回
愛 + 恋 == 3

*愛と恋と好き2回以上
愛 + 恋 + 好き >= 2

組み合わせ

「or」「and」「not」「or not」「and not」を使うことで、コーディングルールを組み合わせることができます。

複数単語指定

複数の単語を指定する場合です。
「and」はどちらも使われている文章、「or」はどちらかが使われている文章が抽出されます。

*恋愛
愛 and 恋

複雑な条件指定

複数の条件を指定する場合には()かっこを使います。

*愛と恋が含まれ嫌いと憎いが含まれない文章
( 愛 and 恋 ) and not ( 嫌い and 憎い )

*愛が2回以上10語以下ではない文章
( 愛 <= 2 ) and not ( lw <= 10 )

定義したコーディングルール指定

既に定義したコーディングルールを指定できます。

*愛もしくは恋
愛 or 恋

*愛と恋が含まれ嫌いと憎いが含まれない文章
(<*愛もしくは恋>) and not ( 嫌い and 憎い )

まとめ

KHCoderのコーディング・ルールの書き方を文章抽出、単語集計、組み合わせ、に分けてご紹介しました。
ここで紹介したコーディングルール以外に、外部変数指定、見出し指定、文章番号指定、文字列指定があります。これらはKHCoderマニュアルに記載があります。(KHCoderのマニュアルはソフトのフォルダにあります)

Next Post Previous Post