文書分類(ぶんしょぶんるい、: Document classification/categorization)は、情報科学における問題である。電子文書をその内容に基づいて、1つ以上に分類する。文書分類には、外部から(例えば人間が)正しい分類に関する情報を与える教師あり文書分類と、外部の情報を参照せずに分類する教師なし文書分類がある。

技法

文書分類に使われる技法としては、以下のものがある。

  • 単純ベイズ分類器
  • tf-idf
  • 潜在意味解析
  • サポートベクターマシン
  • ニューラルネットワーク
  • k近傍法
  • 決定木(例えばID3
  • コンセプトマイニング

他にも、自然言語処理に基づく手法がある。

応用

電子メールスパムを分離する スパムフィルタ に応用されている。


この記事では、Creative Commons Attribution-Share-Alike License 3.0の下に公開されているWikipediaの記事文書分類の資料を使用しています。