Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения.

Необходимость

Методы сбора данных часто плохо контролируются, что приводит к недопустимым значениям (таким как, доход: −100), невозможным комбинациям данных (таким как, пол: Мужской, Беременность: Да), отсутствующим значениям и прочее. При анализе данных, не защищённом от такого рода проблем, можно прийти к неверным выводам. Таким образом, представление данных и их качество являются первостепенной заботой перед осуществлением анализа . Часто предварительная обработка данных является наиболее важной фазой проекта обучения машины, особенно в вычислительной биологии.

Если есть много лишней информации или зашумлённых и недостоверных данных, то извлечение знаний во время тренировки становится затруднительным. Шаг подготовки и фильтрации данных может занять существенное время. Предварительная подготовка данных включает

  • очистку
  • отбор экземпляров [en]
  • нормализацию
  • преобразование данных [en]
  • выделение признаков
  • отбор признаков

и т.д.

Результатом предварительной обработки данных является конечный тренировочный набор [en] .

Методы

Ниже приведено краткое описание методов, применяемых на шаге предварительной обработки данных

  • Очистка данных является процессом обнаружения и исправления или удаления ошибочных записей данных
  • Нормализация данных используется для стандартизации диапазона значений независимых переменных или признаков данных (сведение к интервалам [0, 1] или [-1, +1])
  • Преобразование данных [en] является процессом приведения данных в формат, который ожидают люди
  • Выделение признаков является процессом преобразования входных данных в набор признаков, которые могут хорошо представлять входные данные
  • Уплотнение данных [en] является преобразованием числовых данных в исправленный, упорядоченный и упрощённый вид, что приводит к уменьшению количества или размерности данных.

Литература

  • Dorian Pyle. Data Preparation for Data Mining. — Los Altos, California : Morgan Kaufmann Publishers, 1999.

Эта статья использует материал из статьи Wikipedia Предварительная обработка данных, которая выпущена под Creative Commons Attribution-Share-Alike License 3.0.