標本調査

標本調査（ひょうほんちょうさ）とは、母集団をすべて調査対象とする全数調査（悉皆調査）に対して、母集団から標本を抽出して調査し、それから母集団の性質を統計学的に推定する方法である。

標本調査の例として、商品などの抜き取り調査、一般の社会調査や世論調査などがある。国勢調査は全数調査であり、選挙の投票も建前上は全数調査である。別の視点からいえば、投票行為そのものが標本作成であるということができる。社会調査は調査そのものが対象に影響を与えるので、動機づけのひずみ (motivational bias) を考慮する必要がある^[1]。

全数調査は一般に以下のような理由によって不可能なことが多いので、標本調査が必要になる。

物品を対象とする場合、破壊検査では調査すること自体が調査目的に合わない。全数検査は非破壊的検査に限る。
費用・手間・時間がかかる。
例えば医学・心理学などの調査では、全人類（これから生まれる人も含む）が母集団になり、全数調査は費用・手間・時間が問題となるので調査は不可能。

手順

標本調査は次のような段階を踏んで行われる。

対象とする母集団の定義
抽出の枠（測定する要素のリスト）の設定
枠から要素を選択する（標本抽出）方法の特定
標本抽出とデータ収集
データ解析
再調査

方法としては単純無作為抽出を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。

母集団の定義

まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方動物実験のように、母集団を特定すること（実験データの理想化）がむしろ目的となる場合もある。

標本抽出

抽出の枠

次に、各要素を識別するための抽出枠（リスト）を設定する。

抽出枠は母集団を代表するものでなければならないが、これには統計学だけでなく個別の分野での判断も重要である。

一例を挙げると、1936年のアメリカ大統領選で、Literary Digestは230万人の調査から、対立候補がF.D.ルーズベルト候補に勝つ（57%対43%）と予想した。しかし、世論調査会社ギャラップははるかに少ない人数の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestの調査では、電話や自動車の保有者リストを用いたことや、1,000万の調査対象に対し230万の有効回答しか得られなかったこと、読者層に保守派が多かったことなどが原因となって、標本のサイズが莫大だったにもかかわらず富裕層に偏ってしまった。同じようなことは、近年のインターネットによる調査でも問題になっている。

具体的には、まず全体を決め、次に以下のような枠組みを決定する。

単純抽出

これは全要素を平等に扱い、分割はしない方法である。

層化（層別）抽出（層化抽出法）

母集団が互いに重ならない複数のカテゴリからなる場合には、枠をそのカテゴリ、すなわち層に分ける。各層は、平均が互いに十分異なり、分散が全体の分散より小さいように選ぶとよい。各層から抽出する標本サイズの配分は比例割当法 (proportional allocation) または（ネイマンの）最適割当法 (optimum allocation) などによって決定される。

クラスター抽出

母集団の要素がクラスターを作っている場合、抽出にこれを利用してコストを省くことができる。例えば電話の通話を標本とする場合には、まず利用者を抽出し、その人の全ての通話（クラスターを作る）を調べるという方法がとれる。ただしクラスター内の各標本は無作為抽出した標本よりも互いに似た傾向があり、これを補うために標本サイズを大きくする必要がある。

割当て抽出（クォータ・サンプリング）

まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。

抽出方法

上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。

無作為（ランダム）抽出

無作為抽出は確率的抽出の代表的なものであり、全ての要素の組合せの起こる確率がわかっている（必ずしも同じとは限らない）場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う誤差からそのリスクを計算し、適切な（リスクが容認できる範囲で実用的な）標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかし、これは実用的でない場合も多い。より実用的な確率的抽出として層化抽出（上述）や多段階抽出（無作為抽出を反復する）をよく用いる。社会調査では、層化、段階の設定など作業者の既知の情報に基づいてしか行わないので、無作為であることはほぼ不可能である。第三者機関の調査でも、無作為であるかどうかよりも、公平であるかどうかを判断基準にすることがある。

無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。

系統抽出

系統抽出の例としては、電話帳から10番目ごとに抽出する方法がある。簡単ではあるが、データの非対称性と偏りから、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。

機械的抽出

機械的抽出とは、器具を使って物質をサンプリングする方法をいう。機械的抽出は、機械の設計の意図、機械の動作条件によって偏りが生じる可能性があるので、無作為ではない。機械の設計の意図、機械の動作条件を確率論的に表現できれば、確率的抽出の一種であるということもできる。標本が枠を確実に代表するように注意を要する。

便宜的抽出

要素を枠から任意に、構造を作らずに選ぶ方法である。誤差が大きくなりがちだが、実用的である。社会科学の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。

復元抽出

一度調査した対象をまた調査対象に含める^[2]。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。

非復元抽出

一度調査した対象は調査対象から除外する^[2]。複数の調査が短期間であったり、調査の謝礼を渡す方式だったりすると、一度調査した対象は除外することがある。

抽出とデータ収集

データ収集には次のような注意が必要である。

既定の抽出過程に従って行う。
データの時間順序を守る。
調査過程での注意点を記録する。
調査不能となった対象を記録する。

データ解析

伝統的な標本調査は、標本から中心極限定理と正規分布近似（場合によっては正規分布によらないノンパラメトリック推定も利用できる）を利用して、母集団と母数を推定することで行う。これは計画に基づく抽出といわれる。

現代的な方法としては、抽出過程からベイズ推定などを用いてモデルを作る、モデルに基づく抽出がある。この方法は標本サイズが小さいときに実用的であるが、モデルの前提の正しさを確認しておく必要がある。

標本の加重

層別抽出では、一般に標本として抽出される比率が層によって異なるので、データには正しく母集団を代表するように加重をしなければならない。

例えば社会調査で単純無作為抽出をするには、僻地の人も含めねばならないが、僻地の人にインタビューするにはコストがかかる。このコストを節約する方法として、都会と地方に層化する方法がある。地方の標本サイズが小さくなっても、分析で重みをつけることによって補うことができる。

抽出過程の再調査

抽出後の分析での変動が起こす影響を検討するために、（最初に意図した方法ではなく）実際に行った抽出過程について再調査する必要がある。特に問題となるのは、調査不能対象である。

調査不能者

特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り（非確率的誤差）につながるおそれがあるので、しばしば追跡調査が必要になる。

出典

^ 福武 & 松原 1967, 動機.
^ ^a ^b 西岡 2013, p. 49, 4.3 乗法定理.

参考文献

福武直、松原治郎『社会調査法』有斐閣、1967年。
西岡康夫『数学チュートリアルやさしく語る確率統計』オーム社、2013年。ISBN 978-4-274-21407-3。https://books.google.com/books?id=AUY2AgAAQBAJ。
伏見康治『確率論及統計論』河出書房、1942年。ISBN 978-4-87-472012-7。http://ebsa.ism.ac.jp/ebooks/ebook/204。
『JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部：確率及び一般統計用語』日本規格協会、1999年。http://kikakurui.com/z8/Z8101-1-1999-01.html。
日本数学会『数学辞典』岩波書店、2007年。ISBN 978-4-00-080309-0。

外部リンク

『標本調査』 - コトバンク

統計学

標本調査

要約統計量

連続確率分布

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像