文書分類

文書分類(ぶんしょぶんるい、: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。

技法

文書分類に使われる技法としては、以下のものがある。

他にも、自然言語処理に基づく手法がある。

応用

電子メールのスパムを分離するスパムフィルタに応用されている。

関連項目

参考文献

  • Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 [1]
  • Introduction to document classification
  • Bibliography on Automated Text Categorization
  • Bibliography on Query Classification
  • TechTC - Technion Repository of Text Categorization Datasets
  • David D. Lewis's Datasets