回帰分析

曖昧さ回避 この項目では、統計学における回帰について説明しています。その他の用法については「回帰」をご覧ください。
統計学
回帰分析
モデル
  • 一般化線形モデル
  • 離散選択(英語版)
  • ロジスティック回帰
  • 多項ロジット(英語版)
  • 混合ロジット(英語版)
  • プロビット(英語版)
  • 多項プロビット(英語版)
  • 順序ロジット(英語版)
  • 順序プロビット(英語版)
  • ポアソン(英語版)
  • 非線形回帰
  • ノンパラメトリック(英語版)
  • セミパラメトリック(英語版)
  • ロバスト(英語版)
  • 分位点(英語版)
  • 等調(英語版)
  • 主成分(英語版)
  • 最小角度(英語版)
  • 局所
  • 折れ線(英語版)
  • 変数誤差(英語版)
推定
  • 普通(英語版)
  • 加重(英語版)
  • 一般化(英語版)
  • 最小絶対偏差(英語版)
  • 繰返し加重(英語版)
  • ベイズ(英語版)
  • ベイズ多変量(英語版)
背景

回帰かいき: regression)とは、統計学において、Y が連続値の時にデータに Y = f(X) というモデル(「定量的な関係の構造[1]」)を当てはめること。別の言い方では、連続尺度の従属変数(目的変数)Y と独立変数(説明変数)X の間にモデルを当てはめること。X が1次元ならば単回帰、X が2次元以上ならば重回帰と言う。Y が離散の場合は分類と言う。

回帰分析かいきぶんせき: regression analysis)とは、回帰により分析すること。

回帰で使われる、最も基本的なモデルは Y = A X + B {\displaystyle Y=AX+B} という形式の線形回帰である。

歴史

「回帰」という用語は、英語の「regression」からの翻訳であるが、元々は生物学的現象を表すために19世紀にフランシス・ゴルトンによって造られた。ゴルトンは、背の高い祖先の子孫の身長が必ずしも遺伝せず、先祖返りのように平均値に戻っていく、すなわち「逆戻り、後戻り(=regression)」する傾向があることを発見した。これを「平均への回帰」という。ゴルトンはこの事象を分析するために「線形回帰: linear regression)」を発明した。ゴルトンにとって回帰はこの生物学的意味しか持っていなかったが、のちに統計学の基礎となり、「回帰(: regression)」という用語も統計学へ受け継がれたのである。

概要

回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。

従属変数目的変数)とは、説明したい変数(注目している変数)を指す。独立変数説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費 Y {\displaystyle Y} )を国民所得 X {\displaystyle X} )で説明する消費関数 Y = a X + b {\displaystyle Y=aX+b} というモデルで表されるとする。この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。そして a {\displaystyle a} b {\displaystyle b} といった係数(パラメータ)を推定する。

最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。

モデル

線形(一般化線形モデル一般線形モデルなど)

線形回帰の例

非線形

最小二乗法による推定

詳細は「最小二乗法」を参照

パラメータを推定する代表的な方法として、最小二乗法がある。これは、二乗和誤差を最小化する最尤推定である。

最小二乗法の概要は次の通りである。初めに回帰式(目的変数を説明変数で計算する式)を設定する。次に、回帰式の係数を求めるが、「従属変数の測定値と、独立変数の測定値および回帰式を用いて求めた推定値の差の二乗和誤差」が最小になるように求める。線形モデルの場合、回帰式の係数で推定値の差の2乗平均を微分し0と置いた連立方程式を解いて求められる。

独立変数同士の相関

マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。そのため、一般化線形モデルで説明変数同士が関連性の高いものを使うと係数が妙な値になることがあるので注意する必要がある(これは多重共線性と呼ばれる)。

例:小学校での定期テスト得点から重回帰で分析する場合に、理科の点数を従属変数に、算数と国語を説明変数にした場合、算数が増えると理科の点数が多く、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。これは算数と国語の点数に強い相関が両者にあるからである。この場合は算数と国語の平均点と、算数と国語の得点の差というように和と差に数字を加工すると、この2つは相関が大抵低く、かつ解釈しやすい。算数と国語の得点の差は、算数の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるからである。

これは、線形モデルの問題であるため、線形モデルが不適切ならば、非線形モデルを使用すればよい。また、共分散構造分析という重回帰より複雑な関係を適切に説明できるモデルもある。

語源

回帰は語源的には回帰効果(平均への回帰)に由来する。回帰効果は相関(直線的な関係)が低い場合に顕著に現れる。しかし回帰分析では必ずしも直線的関係を仮定しない。また「目的変数yを説明変数xに回帰する」といい、「回帰」という言葉が由来とは異なる意味に使われている。

解析ソフト

  • NAG
  • IMSL
  • R言語 - 統計解析言語。回帰分析ほか多くの統計関数を標準装備したフリーウェア。『モデル式』でモデル記述や当てはめが容易。他アプリケーションのファイル取込やODBC接続対応。FDA公認。CRANという仕組みで世界の膨大なソフトを無償利用可能。可視化機能に優れ、日本語対応。マルチプラットフォーム
  • Stata
  • Gretl

脚注

  1. ^ 『統計学入門』(東京大学出版会)、257頁

参考文献

  • 『統計学入門』東京大学出版会、1991年。 
  • J. R. Taylor 著、林茂雄、馬場凉(訳) 編『計測における誤差解析入門』東京化学同人、2000年。 
  • 蓑谷千凰彦『回帰分析のはなし』東京図書、1985年。 

関連項目

標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
典拠管理データベース: 国立図書館 ウィキデータを編集
  • フランス
  • BnF data
  • ドイツ
  • イスラエル
  • アメリカ
  • 日本
  • チェコ