Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения.
Методы сбора данных часто плохо контролируются, что приводит к недопустимым значениям (таким как, доход: −100), невозможным комбинациям данных (таким как, пол: Мужской, Беременность: Да), отсутствующим значениям и прочее. При анализе данных, не защищённом от такого рода проблем, можно прийти к неверным выводам. Таким образом, представление данных и их качество являются первостепенной заботой перед осуществлением анализа . Часто предварительная обработка данных является наиболее важной фазой проекта обучения машины, особенно в вычислительной биологии.
Если есть много лишней информации или зашумлённых и недостоверных данных, то извлечение знаний во время тренировки становится затруднительным. Шаг подготовки и фильтрации данных может занять существенное время. Предварительная подготовка данных включает
и т.д.
Результатом предварительной обработки данных является конечный тренировочный набор [en] .
Ниже приведено краткое описание методов, применяемых на шаге предварительной обработки данных