教師なし学習

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習（英語版）半教師あり学習（英語版）教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF（英語版） PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN U-Net
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

教師なし学習（きょうしなしがくしゅう, 英: Unsupervised Learning）とは、機械学習の手法の一つである。

既知の「問題」x_iに対する「解答」y_iを「教師」が教えてくれる手法である教師あり学習、と対比して「問題」x_iに対する「出力すべきもの（正解=教師）」があらかじめ決まっていないという点で教師なし学習と呼ばれ、データの背後に存在する本質的な構造を抽出するために用いられる。

概要

教師なし学習は教師あり学習と違い、目的変数yに相当するものがそもそも存在しないか、あっても知る事ができない。未知の確率分布 $p(\mathbf {x} )$ に従う変数 $\mathbf {x} _{1},\ldots ,\mathbf {x} _{n}$ が訓練データとしてアルゴリズムに与えられる。アルゴリズムが解くべきタスクは、確率分布 $p(\mathbf {x} )$ やその重要な性質を何らかの形で学習し、 $p(\mathbf {x} )$ の特性を直接推定する事である^[1]。教師あり学習と違い、明確な「正解」yが存在しないので、教師なし学習では出力の妥当性を直接評価する評価尺度は存在せず^[1]、妥当か否かの判断は主観的なものになり^[1]、ヒューリスティックな議論が必要となる^[1]。

教師なし学習の興味の一つは確率密度関数 $p(\mathbf {x} )$ それ自身を推定する密度推定のタスクであり、カーネル密度推定など統計学で様々なノンパラメトリック密度推定の手法が知られている^[1]。しかしxの次元が高い場合は次元の呪いが原因でこうした推定はうまくいかず^[1]、それゆえ多くの教師なし学習では、 $p(\mathbf {x} )$ の何らかのパラメトリックなモデルで $p(\mathbf {x} )$ を近似することを試みたり、訓練データから $p(\mathbf {x} )$ の何らかの重要な性質を抽出するといったアプローチが取られる。

具体的なタスクとして以下のようなものがある。

アルゴリズム

自己教師あり学習

自己教師あり学習（英: self-supervised learning）は学習データのラベルを学習データに基づいて生成する学習手法である^[2]。教師ラベルがないという点で教師なし学習の一種とみなせる^[3]。

脚注

^ ^a ^b ^c ^d ^e ^f #ESL p559-561
^ "Obtain 'labels' from the data itself by using a “semiautomatic” process." Liu, et al. (2021). Self-supervised Learning: Generative or Contrastive. p.2.
^ "Self-supervised learning can be viewed as a branch of unsupervised learning since there is no manual label involved." Liu, et al. (2021). Self-supervised Learning: Generative or Contrastive. p.2.

参考文献

Hastie, Trevor、Tibshirani, Robert、Friedman, Jerome『統計的学習の基礎データマイニング・推論・予測』杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作、井尻善久、岩田具治、金森敬文、兼村厚範、烏山昌幸、河原吉伸、木村昭悟、小西嘉典、酒井智弥、鈴木大慈、竹内一郎、玉木徹、出口大輔、冨岡亮太、波部斉、前田新一、持橋大地、山田誠翻訳、共立出版、2014年6月25日。ISBN 978-4320123625。
- “The Elements of Statistical Learning: Data Mining, Inference, and Prediction.”. スタンフォード大学. 2020年11月10日閲覧。：上述の書籍の英語版公式サイト。無料pdfあり。

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像