度数分布

度数分布(どすうぶんぷ、: Frequency Distribution)は、統計において標本として得たある変量の値のリストである。量の大小の順で並べ、各数値が現れた個数を表示する表(度数分布表)で示す[1]日本産業規格では、「特性値と、その度数または相対度数との関係を観測したもの」と定義している[2]

例えば、100人がある文章に同意するかを5段階のリッカート尺度で回答したとする。このとき、1 は強く同意することを示し、5は全く同意しないことを示す。その回答群を度数分布で表すと次のようになる。

階級 同意の度合 回答数
1 強く同意する 25
2 ある程度同意する 35
3 どちらとも言えない 20
4 ある程度同意できない 15
5 全く同意できない 5

この単純な表には2つの弱点がある。変量が連続的な値をとりうる場合や、変量が取りうる値の範囲が非常に広い場合、度数分布表の作成は難しくなり、分析に適さなくなる。そこで、これを若干修正した表の形態として、変量の値をある範囲で等間隔に区切る方法が取られる。例えば、生徒の身長の統計をとる場合、度数分布表は以下のようになる。

身長の範囲 生徒数 累積
135 - 150 cm 25 25
150 - 165 cm 35 60
165 - 180 cm 20 80
180 - 195 cm 20 100

応用

度数分布化されたデータは元のデータよりも扱いが容易である。度数分布から中央値、平均値、標準偏差を求める単純なアルゴリズムが存在する。

複数の度数分布間の差異と類似性の評価から仮説検定が考案された。この評価には代表値平均の測定や統計的ばらつき標準偏差分散)の測定が関係する。

平均と中央値が異なる場合、度数分布に歪みがあると称する。度数分布の尖度とは、平均値への集中の度合であり、ヒストグラムで表した場合のグラフの尖り具合である。正規分布以上に尖っている場合を「急尖的; leptokurtic」と称し、逆の場合を「緩尖的; platykurtic」と称する。

度数分布は暗号解読での頻度解析にも使われる。これは文字の種類ごとの出現頻度と言語における文字種ごとの出現頻度から暗号を解読する手法である。

脚注

  1. ^ 西岡, 1.4 度数分布 p.8.
  2. ^ JIS Z 8101-1 : 1999, 2.4 度数分布.

参考文献