コーディング・ルールの作り方【KHCoder】
KHCoderのコーディング・ルールの作り方をご紹介します。
コーディング・ルールとは
KHCoderのコーディングルールを使えば、独自の集計が可能になります。
例えば、「愛」「恋」「好き」のいずれかが含まれている文章、「愛」と「恋」のどちらも含む文章、などを集計することができます。
簡単な例
下記のコーディングルールは、「愛」「恋」「好き」のいずれかが含まれている文章を集計し、「恋愛」というラベル(凡例)でまとめています。
*恋愛
愛 or 恋 or 好き
文章抽出
ある単語を含む文(もしくは段落)の抽出です。
文や段落に含まれる単語の数は関係ありません。
単語指定
単語を指定する場合です。
*愛
愛
品詞指定
単語は品詞を指定できます。
*コメ
米-->名詞C
*アメリカ
米-->地名
活用形指定
活用形を指定できます。指定しない場合、「買う」「買って」「買わず」の全てが集計されます。活用形の名称ではなく「買わ」などを指定することもできます。
また、活用形指定は品詞指定と組み合わせて使うこともできます。
*買う活用形1
買う->未然形
*買う活用形2
買う=>買わ
*買う品詞と活用形1
買う-->動詞->未然形
*買う品詞と活用形2
買う-->動詞=>買わ
複合語
卒業論文、安倍内閣などの複合語を含む文章の抽出です。
*卒業論文
卒業+論文
近接語
指定した範囲内にある単語と単語の組み合わせを抽出します。
下記コーディングルールの場合、「先生」の前後10語以内に「奥さん」がある文章が抽出されます。
[3]を追加すれば、3語以内になります。
[d]は段落を数えます。段落指定で単語数も指定する場合は[d3]と書きます。
*先生夫婦(省略気泡)
near(先生-奥さん)
*先生夫婦単語数指定
near(先生-奥さん)[3]
*先生夫婦段落指定
near(先生-奥さん)[d]
*先生夫婦段落指定かつ単語数指定
near(先生-奥さん)[d3]
順序指定
ある単語と、その単語の後に登場した単語の組み合わせを抽出します。
下記コーディングルールの場合、「先生」の後に登場した「奥さん」がある文章が抽出されます。
近接後同様、[3][d]が使えます。
*先生夫婦(省略気泡)
seq(先生-奥さん)
*先生夫婦単語数指定
seq(先生-奥さん)[3]
*先生夫婦段落指定
seq(先生-奥さん)[d]
*先生夫婦段落指定かつ単語数指定
seq(先生-奥さん)[d3]
文章長指定
文章に含まれる単語や文字の数で文章を抽出できます。
*10語以下
lw <= 10
*10語以上
lw >= 10
*10文字以下
lc <= 10
単語集計
文章に含まれる単語の集計です。
回数指定
単語が3回登場、2回以上などの回数指定です。
なお、スペースを外すと、コーディングルールとして機能しなくなります。
*愛3回
愛 == 3
*愛2回以上
愛 >= 2
複数の単語
単語を複数指定する場合です。
*愛と恋3回
愛 + 恋 == 3
*愛と恋と好き2回以上
愛 + 恋 + 好き >= 2
組み合わせ
「or」「and」「not」「or not」「and not」を使うことで、コーディングルールを組み合わせることができます。
複数単語指定
複数の単語を指定する場合です。
「and」はどちらも使われている文章、「or」はどちらかが使われている文章が抽出されます。
*恋愛
愛 and 恋
複雑な条件指定
複数の条件を指定する場合には()かっこを使います。
*愛と恋が含まれ嫌いと憎いが含まれない文章
( 愛 and 恋 ) and not ( 嫌い and 憎い )
*愛が2回以上10語以下ではない文章
( 愛 <= 2 ) and not ( lw <= 10 )
定義したコーディングルール指定
既に定義したコーディングルールを指定できます。
*愛もしくは恋
愛 or 恋
*愛と恋が含まれ嫌いと憎いが含まれない文章
(<*愛もしくは恋>) and not ( 嫌い and 憎い )
まとめ
KHCoderのコーディング・ルールの書き方を文章抽出、単語集計、組み合わせ、に分けてご紹介しました。
ここで紹介したコーディングルール以外に、外部変数指定、見出し指定、文章番号指定、文字列指定があります。これらはKHCoderマニュアルに記載があります。(KHCoderのマニュアルはソフトのフォルダにあります)