フィッシャーの正確確率検定

フィッシャーの正確確率検定（フィッシャーのせいかくかくりつけんてい、英: Fisher's exact test）は、標本の大きさが小さい場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である^[1]^[2]^[3]。フィッシャーの直接確率検定ともいう。名称は考案者ロナルド・フィッシャーに因む。

2 x 2分割表（2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1）の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本の大きさが小さい（分割表のセルの期待値に10未満のものがある）場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合（差がなさそうに見える場合）には計算が難しいが、このようなときはカイ二乗検定が利用可能である。

以下に、2 x 2分割表での分析例を示す：

男および女の集団を、現在ダイエットしている人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある（性別とダイエット中かどうかとに関連がある）かどうかを検定する。データは次の2 x 2分割表で表される：

	男	女	全
ダイエット中	1	9	10
非ダイエット	11	3	14
合計	12	12	24

このデータは、全てのセルの期待値が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルをa、b、c、d と表示し、各行・各列の小計をそれらの和で、また総計をn で表すと次のようになる：

	男	女	全
ダイエット中	a	b	a+b
非ダイエット	c	d	c+d
合計	a+c	b+d	n

フィッシャーは、このような数値の組み合わせが得られる確率p が次のような超幾何分布で表されることを示した：

p={\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}

ここで記号! は階乗を表す。また、各小計および総計n を一定とすればb、c、d はいずれもa から求められるので、自由度は1である。

この式は、「母集団における男と女それぞれのダイエット中・非ダイエットの人数の割合は等しい」という帰無仮説の下で、この特定の数値の組み合わせが得られる正確な確率を与える。しかしこの確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには（普通の検定と同じように）実際の観測データよりも極端な場合も含めて考えなければならない。フィッシャーは、そのためには小計が観測値と同じになるような場合だけを考慮すればよいことを示した。今の例では、その考慮に入れるべき場合は次の1つ（男はだれもダイエットしていない）だけである：

	男	女	全
ダイエット中	0	10	10
非ダイエット	12	2	14
合計	12	12	24

観測データの有意性（つまり、帰無仮説が正しい場合に同じデータもしくはもっと極端なデータが得られる総確率）を計算するためには、これらの分割表全てから確率を求めてその総和をとる必要がある。上の例ではp値は0.0014である。

なお、以上はある一方に偏った場合だけを考慮する（女性のダイエット率の方が高いのかどうかを調べる）片側検定であるが、両方への偏りを考慮する（男性のダイエット率の方が高い場合もありうるとして考える）両側検定を行うためには、以上に示したのと反対向きに極端な場合の表も考慮する必要がある。多くの統計検定とは違い、両側検定でのp値は片側検定でのそれの2倍になるとは限らない。

正確確率検定の計算には時間がかかり、コンピュータを用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の数表を使うこともできるが、現在は統計パッケージでの計算も可能である（ただし数値の偏りが小さい場合など計算できないこともある）。

脚注

[脚注の使い方]

^ Fisher, R. A. (1922). “On the interpretation of χ² from contingency tables, and the calculation of P”. Journal of the Royal Statistical Society 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521.
^ Fisher, R.A. (1954). Statistical Methods for Research Workers. Oliver and Boyd. ISBN 0-05-002170-2
^ Agresti, Alan (1992). “A Survey of Exact Inference for Contingency Tables”. Statistical Science 7 (1): 131–153. doi:10.1214/ss/1177011454. JSTOR 2246001.

外部リンク

JavaScript-STAR　フリーの分散分析ツールとして有名だが、1 x 2および2 x 2の直接確率検定が実行可能。

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像