教師なし学習

機械学習および
データマイニング
問題
  • 分類
  • クラスタリング
  • 回帰
  • 異常検知
  • 相関ルール(英語版)
  • 強化学習
  • 構造化予測(英語版)
  • 特徴量設計(英語版)
  • 表現学習(英語版)
  • オンライン学習(英語版)
  • 半教師あり学習(英語版)
  • 教師なし学習
  • ランキング学習(英語版)
  • 文法獲得(英語版)
理論
  • 偏りと分散のトレードオフ
  • 計算論的学習理論(英語版)
  • 経験損失最小化(英語版)
  • オッカム学習(英語版)
  • PAC学習
  • 統計的学習(英語版)
  • VC理論(英語版)
学会・論文誌等
  • NIPS(英語版)
  • ICML(英語版)
  • ML(英語版)
  • JMLR(英語版)
  • ArXiv:cs.LG

カテゴリ Category:機械学習

カテゴリ Category:データマイニング

教師なし学習(きょうしなしがくしゅう, : Unsupervised Learning)とは、機械学習の手法の一つである。

既知の「問題」xiに対する「解答」yiを「教師」が教えてくれる手法である教師あり学習、と対比して「問題」xiに対する「出力すべきもの(正解=教師)」があらかじめ決まっていないという点で教師なし学習と呼ばれ、データの背後に存在する本質的な構造を抽出するために用いられる。

概要

教師なし学習は教師あり学習と違い、目的変数yに相当するものがそもそも存在しないか、あっても知る事ができない。未知の確率分布 p ( x ) {\displaystyle p(\mathbf {x} )} に従う変数 x 1 , , x n {\displaystyle \mathbf {x} _{1},\ldots ,\mathbf {x} _{n}} が訓練データとしてアルゴリズムに与えられる。アルゴリズムが解くべきタスクは、確率分布 p ( x ) {\displaystyle p(\mathbf {x} )} やその重要な性質を何らかの形で学習し、 p ( x ) {\displaystyle p(\mathbf {x} )} の特性を直接推定する事である[1]。教師あり学習と違い、明確な「正解」yが存在しないので、教師なし学習では出力の妥当性を直接評価する評価尺度は存在せず[1]、妥当か否かの判断は主観的なものになり[1]、ヒューリスティックな議論が必要となる[1]

教師なし学習の興味の一つは確率密度関数 p ( x ) {\displaystyle p(\mathbf {x} )} それ自身を推定する密度推定のタスクであり、カーネル密度推定など統計学で様々なノンパラメトリック密度推定の手法が知られている[1]。しかしxの次元が高い場合は次元の呪いが原因でこうした推定はうまくいかず[1]、それゆえ多くの教師なし学習では、 p ( x ) {\displaystyle p(\mathbf {x} )} の何らかのパラメトリックなモデルで p ( x ) {\displaystyle p(\mathbf {x} )} を近似することを試みたり、訓練データから p ( x ) {\displaystyle p(\mathbf {x} )} の何らかの重要な性質を抽出するといったアプローチが取られる。


具体的なタスクとして以下のようなものがある。

アルゴリズム

自己教師あり学習

自己教師あり学習: self-supervised learning)は学習データのラベルを学習データに基づいて生成する学習手法である[2]。教師ラベルがないという点で教師なし学習の一種とみなせる[3]

脚注

  1. ^ a b c d e f #ESL p559-561
  2. ^ "Obtain 'labels' from the data itself by using a “semiautomatic” process." Liu, et al. (2021). Self-supervised Learning: Generative or Contrastive. p.2.
  3. ^ "Self-supervised learning can be viewed as a branch of unsupervised learning since there is no manual label involved." Liu, et al. (2021). Self-supervised Learning: Generative or Contrastive. p.2.

参考文献

  • Hastie, Trevor、Tibshirani, Robert、Friedman, Jerome『統計的学習の基礎 データマイニング・推論・予測』杉山将、井手剛、神嶌敏弘、栗田多喜夫、前田英作、井尻善久、岩田具治、金森敬文、兼村厚範、烏山昌幸、河原吉伸、木村昭悟、小西嘉典、酒井智弥、鈴木大慈、竹内一郎、玉木徹、出口大輔、冨岡亮太、波部斉、前田新一、持橋大地、山田誠 翻訳、共立出版、2014年6月25日。ISBN 978-4320123625。 
    • “The Elements of Statistical Learning: Data Mining, Inference, and Prediction.”. スタンフォード大学. 2020年11月10日閲覧。:上述の書籍の英語版公式サイト。無料pdfあり。
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ
スタブアイコン

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(PJ:コンピュータ/P:コンピュータ)。

  • 表示
  • 編集
典拠管理データベース: 国立図書館 ウィキデータを編集
  • ドイツ