度数分布
度数分布(どすうぶんぷ、英: Frequency Distribution)は、統計において標本として得たある変量の値のリストである。量の大小の順で並べ、各数値が現れた個数を表示する表(度数分布表)で示す[1]。日本産業規格では、「特性値と、その度数または相対度数との関係を観測したもの」と定義している[2]。
例
例えば、100人がある文章に同意するかを5段階のリッカート尺度で回答したとする。このとき、1 は強く同意することを示し、5は全く同意しないことを示す。その回答群を度数分布で表すと次のようになる。
階級 | 同意の度合 | 回答数 |
---|---|---|
1 | 強く同意する | 25 |
2 | ある程度同意する | 35 |
3 | どちらとも言えない | 20 |
4 | ある程度同意できない | 15 |
5 | 全く同意できない | 5 |
この単純な表には2つの弱点がある。変量が連続的な値をとりうる場合や、変量が取りうる値の範囲が非常に広い場合、度数分布表の作成は難しくなり、分析に適さなくなる。そこで、これを若干修正した表の形態として、変量の値をある範囲で等間隔に区切る方法が取られる。例えば、生徒の身長の統計をとる場合、度数分布表は以下のようになる。
身長の範囲 | 生徒数 | 累積 |
---|---|---|
135 - 150 cm | 25 | 25 |
150 - 165 cm | 35 | 60 |
165 - 180 cm | 20 | 80 |
180 - 195 cm | 20 | 100 |
応用
度数分布化されたデータは元のデータよりも扱いが容易である。度数分布から中央値、平均値、標準偏差を求める単純なアルゴリズムが存在する。
複数の度数分布間の差異と類似性の評価から仮説検定が考案された。この評価には代表値や平均の測定や統計的ばらつき(標準偏差や分散)の測定が関係する。
平均と中央値が異なる場合、度数分布に歪みがあると称する。度数分布の尖度とは、平均値への集中の度合であり、ヒストグラムで表した場合のグラフの尖り具合である。正規分布以上に尖っている場合を「急尖的; leptokurtic」と称し、逆の場合を「緩尖的; platykurtic」と称する。
度数分布は暗号解読での頻度解析にも使われる。これは文字の種類ごとの出現頻度と言語における文字種ごとの出現頻度から暗号を解読する手法である。
脚注
- ^ 西岡, 1.4 度数分布 p.8.
- ^ JIS Z 8101-1 : 1999, 2.4 度数分布.
参考文献
- 西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。