フィッシャーの正確確率検定

フィッシャーの正確確率検定(フィッシャーのせいかくかくりつけんてい、: Fisher's exact test)は、標本の大きさが小さい場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である[1][2][3]フィッシャーの直接確率検定ともいう。名称は考案者ロナルド・フィッシャーに因む。

2 x 2分割表(2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本の大きさが小さい(分割表のセルの期待値に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。

以下に、2 x 2分割表での分析例を示す:

男および女の集団を、現在ダイエットしている人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある(性別とダイエット中かどうかとに関連がある)かどうかを検定する。データは次の2 x 2分割表で表される:

ダイエット中 1 9 10
非ダイエット 11 3 14
合計 12 12 24

このデータは、全てのセルの期待値が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルをabcd と表示し、各行・各列の小計をそれらの和で、また総計をn で表すと次のようになる:

ダイエット中 a b a+b
非ダイエット c d c+d
合計 a+c b+d n

フィッシャーは、このような数値の組み合わせが得られる確率p が次のような超幾何分布で表されることを示した:

p = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! n ! a ! b ! c ! d ! {\displaystyle p={\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}}

ここで記号! 階乗を表す。また、各小計および総計n を一定とすればbcd はいずれもa から求められるので、自由度は1である。

この式は、「母集団における男と女それぞれのダイエット中・非ダイエットの人数の割合は等しい」という帰無仮説の下で、この特定の数値の組み合わせが得られる正確な確率を与える。しかしこの確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。フィッシャーは、そのためには小計が観測値と同じになるような場合だけを考慮すればよいことを示した。今の例では、その考慮に入れるべき場合は次の1つ(男はだれもダイエットしていない)だけである:

ダイエット中 0 10 10
非ダイエット 12 2 14
合計 12 12 24

観測データの有意性(つまり、帰無仮説が正しい場合に同じデータもしくはもっと極端なデータが得られる総確率)を計算するためには、これらの分割表全てから確率を求めてその総和をとる必要がある。上の例ではp値は0.0014である。

なお、以上はある一方に偏った場合だけを考慮する(女性のダイエット率の方が高いのかどうかを調べる)片側検定であるが、両方への偏りを考慮する(男性のダイエット率の方が高い場合もありうるとして考える)両側検定を行うためには、以上に示したのと反対向きに極端な場合の表も考慮する必要がある。多くの統計検定とは違い、両側検定でのp値は片側検定でのそれの2倍になるとは限らない。

正確確率検定の計算には時間がかかり、コンピュータを用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の数表を使うこともできるが、現在は統計パッケージでの計算も可能である(ただし数値の偏りが小さい場合など計算できないこともある)。

脚注

[脚注の使い方]
  1. ^ Fisher, R. A. (1922). “On the interpretation of χ2 from contingency tables, and the calculation of P”. Journal of the Royal Statistical Society 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521. 
  2. ^ Fisher, R.A. (1954). Statistical Methods for Research Workers. Oliver and Boyd. ISBN 0-05-002170-2 
  3. ^ Agresti, Alan (1992). “A Survey of Exact Inference for Contingency Tables”. Statistical Science 7 (1): 131–153. doi:10.1214/ss/1177011454. JSTOR 2246001. 

関連項目

外部リンク

  • JavaScript-STAR フリーの分散分析ツールとして有名だが、1 x 2および2 x 2の直接確率検定が実行可能。
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ