KH Coder

KH Coder
漱石「こころ」の共起ネットワーク
作者 樋口耕一
最新版
2.00f / 2015年12月29日 (9年前) (2015-12-29)
最新評価版
3.Beta.06 / 2022年10月6日 (2年前) (2022-10-06)
リポジトリ ウィキデータを編集
プログラミング
言語
Perl
対応OS Cross-platform
対応言語 日本語, 英語
サポート状況 Active
種別 内容分析, テキストマイニング
ライセンス GPL ver.2
公式サイト [1]
テンプレートを表示

KH Coderとは、テキスト型データの計量的な内容分析(計量テキスト分析)もしくはテキストマイニングのための自由ソフトウェアである。各種の検索を行えるほか、どんな言葉が多く出現していたのかを頻度表から見ることができる。さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索できる。また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる。

多変量解析の具体的な手法としては、対応分析(数量化III類)・クラスター分析多次元尺度構成法(MDS)自己組織化マップ・共起ネットワーク・機械学習(ナイーブベイズ)などに対応している。 こうした分析を日本語・英語データに対して行えるほか、オランダ語・フランス語・ドイツ語・イタリア語・ポルトガル語・スペイン語データについても実験的に対応している。

KH Coderを用いて行われた研究としては、アンケートの自由回答項目・新聞記事・インタビューデータなど様々なデータを分析した事例がある[1]

KH CoderはPerlによって作製されており、バックエンドとしてChaSenMeCabMySQLR言語・Stanford POS Tagger・Snowball Stemmer・TermExtractなどを利用している。すべての機能をマウス操作で利用することができるが、より高度な検索・分析のために直接MySQLにアクセスして独自の検索を行ったり、R言語に修正を加えることで統計分析をカスタマイズすることができる。また短いPerlスクリプトを書くことでプラグインを作成し、独自の機能を付け加えることもできる。

文献

出典

外部リンク