データ前処理(データまえしょり)は、データマイニングの過程における重要なステップである。「ガベッジイン、ガベッジアウト」という考えは、データマイニングや機械学習において特に適用可能である。取り扱い範囲外の値や、組み合わせ不可能なデータがあるなどといった結果として、データ収集の方法は大雑把になってしまう場合が多い。そのような問題に対処するために、データ収集の段階で注意深くスクリーニングを行うことは誤解を生まずに済むため有効である。


この記事では、Creative Commons Attribution-Share-Alike License 3.0の下に公開されているWikipediaの記事データ前処理の資料を使用しています。