偏り

「偏り」のその他の用法については「goo辞書「偏り」」をご覧ください。

偏り（かたより）またはバイアス（英: bias）とは、統計学で2つの異なる意味に用いられる。

標本の偏りとは、母集団の要素が標本として平等に選ばれていないと考えられる場合をいう。
推定量の偏りとは、推定すべき量を何らかの理由で高く、または低く推定しすぎている場合をいう。

偏りという用語は悪い意味に聞こえるが、必ずしもそうではない。偏った標本は悪いものだが、偏った推定量のよしあしは状況による。

偏りがないことを不偏（ふへん、英: unbiased）と言う。

標本の偏り

母集団の一部の要素が他よりも標本として選ばれやすい場合に、標本に偏りがあるという。偏った標本は一般に誤った推定量を与える。推定する量が高い、または低いような要素が標本に多く含まれていれば結果は本当の値とは違ってしまう。

有名な例に1936年のアメリカ大統領選の予想がある。Literary Digest誌は200万人の調査から、対立候補がF.D.ルーズベルト候補に勝つ（57%対43%）と予想したが、世論調査会社のギャラップ社は30万人の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestは、標本のサイズが莫大だったにもかかわらず、電話や自動車の保有者リストを元に標本を抽出したために、これらを購入できる富裕層に偏ってしまったのである。

この種の偏りは通常、統計学的なノイズよりも悪いものと考えられる。ノイズの問題は標本を大きくすることで軽くすることができるが、偏った標本ではそのように簡単に解決できない。メタアナリシス（複数の統計調査結果をまとめてさらに解析すること）はうまく用いれば、単独ではノイズを含む調査からよりよいデータを引き出すことができるが、偏りのある調査ばかり用いてメタアナリシスをしても偏りは減らせない。このような偏りを減らすには、適切な標本抽出の手法を、個別分野の知識に基づいて利用する必要がある。

推定量の偏り

これは、実際に推定しようとしている量とは違うような平均値をもつ統計量を推定量として使ってしまうことをいう。逆にこの平均値が推定しようとしている量に等しい場合には、不偏推定量という。

推定量（観察データの関数） ${\hat {\theta }}$ を使って母数 θ を推定するとしよう。θ の偏りは：

\operatorname {E} ({\hat {\theta }})-\theta

と定義される。つまり「推定量の期待値と本当の値 θ との差」。書き換えると

\operatorname {E} ({\hat {\theta }}-\theta )

つまり「推定量と本当の値 θ との差の期待値」。

例えば X₁, ..., X_n を独立で同じ分布に従うランダム変数でその期待値をμ, 分散（不偏分散）をσ²とし、

{\overline {X}}=(X_{1}+\cdots +X_{n})/n

を標本平均、

S^{2}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}\,)^{2}

を標本分散とする。するとS²は、σ²の推定量としては偏りがある。なぜなら

\operatorname {E} (S^{2})={\frac {n-1}{n}}\sigma ^{2}\neq \sigma ^{2}

しかし標本が正規分布に従う母集団から抽出されたものならば、この「偏りのある推定量」は、普通用いられる「平均二乗誤差」という意味では、S²の分母 n を n－1 に変えた不偏推定量よりもよい。それでも母分散の不偏推定量の平方根は母標準偏差の不偏推定量ではない。非線形関数f と母数p の不偏推定量U に対してはf(U) は普通f(p) の不偏推定量ではないからである。

偏りのある推定量が不偏推定量よりもよいという極端な例に、次のようなものがある。X が期待値λ のポアソン分布に従うとしよう。推定したいのは

\operatorname {P} (X=0)^{2}=e^{-2\lambda }\quad

で、不偏推定量に当てはまるただ一つの関数は

\delta (X)=(-1)^{X}\quad

である。

X の観察値が100とすると、推定量は1となるが、推定する本当の量は明らかに0に近く、これは反対の極端である。さらにXの観察値が101とすると推定量は－1となってしまうが、推定する量は正でなければならないはずである。最尤推定量（最尤法で求められる推定量）

e^{-2X}\quad

（これは偏りがある）は上の不偏推定量よりもよい。なぜならその平均二乗誤差

e^{-4\lambda }-2e^{\lambda (1/e^{2}-3)}+e^{\lambda (1/e^{4}-1)}

は、不偏推定量の平均二乗誤差

1-e^{-4\lambda }

よりも小さいからである。

この平均二乗誤差は本当の値λ の関数である。最尤推定量の偏りは

e^{-2\lambda }-e^{\lambda (1/e^{2}-1)}

ということになる。

最尤推定量の偏りはかなり大きくなるおそれがある。例えば、1 から n まで番号を打った n 枚のカードを箱に入れた場合を考える。ランダムに1枚を取り出したところ、番号はX だったとしよう。n が不明ならば、X の期待値が (n+1)/2 だとしても、n の最尤推定量はX であり、n は少なくともX 以上と言えるだけである。この場合、自然な不偏推定量は 2X－1 である。

関連項目

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像