Interested Article - Предварительная обработка данных

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных . Фраза « мусор на входе — мусор на выходе » применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения . Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные .

Необходимость

Методы сбора данных часто плохо контролируются. Это приводит к появлению недопустимых значений (к примеру: доход, равный −100), комбинаций данных, которые невозможны (к примеру: «мужской пол при наличии беременности»), отсутствию значений и прочее. В результате анализа данных, которые не защищены от такого рода проблем, можно прийти к неверным выводам. Качество данных является первостепенной задачей при проведении анализа . Часто, предварительная обработка данных становится важной фазой проекта обучения машины . Это особенно касается процессов вычислительной биологии .

Во время тренировки машины, при большом количестве лишней информации, « зашумлённых » и недостоверных данных, извлечение знаний становится затруднительным. Этап подготовки и может занять много времени. Предварительная подготовка данных включает в себя:

и прочие манипуляции с данными.

Результатом предварительной обработки данных является конечный .

Методы

Ниже приведено краткое описание методов, которые применяются на этапе предварительной обработки данных.

Очистка данных используется для обнаружения, исправления или удаления ошибочных записей в наборе данных ;
Нормализация данных используется для стандартизации независимых переменных или признаков данных (например, сведение к интервалам [0, 1] или [-1, +1]);
используется для приведения данных в формат, который ожидает аудитория;
Выделение признаков используется для преобразования входных данных в набор признаков, которые они хорошо представляют;
используется для преобразования числовых данных в исправленный, упорядоченный и упрощённый вид. Это помогает уменьшить количество и/или размерность данных.

См. также

Очистка данных

Примечания

Чарльз Уилан. Голая статистика. — 2-е издание. — Москва: Манн, Иванов и Фербер, 2017. — С. 152—153. — 341 с. — ISBN 978-5-00100-823-1 .
.
, с. 1—17.
.

Литература

Dorian Pyle. . — : Morgan Kaufmann Publishers, 1999.
Wu S. A review on coarse warranty data and analysis // Reliability Engineering and System. — 2013. — Вып. 114 . — doi : .
Chicco D. Ten quick tips for machine learning in computational biology // BioData Mining. — 2017. — Декабрь ( т. 10 , вып. 35 ). — doi : . — . — PMC .