Interested Article - Признаковое описание

Признаковое описание объекта ( англ. feature vector ) — это вектор , который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа . Является одним из самых распространённых в машинном обучении способов ввода данных.

Формальное определение

Обозначим через X множество объектов, ситуаций, прецедентов некоторой предметной области . Например, в задачах машинного обучения, встречающихся в медицине, прецедентами могут являться пациенты, в сфере кредитования при проведении кредитного скоринга заёмщики , в задаче фильтрации спама — отдельные сообщения.

Признак ( англ. feature ) — результат измерения некоторой характеристики объекта, то есть отображение:

,

где — множество допустимых значений признака.

Значениями признаков могут быть тексты , графы , оцифрованные изображения , числовые последовательности , записи базы данных и т. п. В зависимости от множества признаки делятся на следующие типы:

  • бинарный признак: ;
  • номинальный признак: — конечное множество;
  • порядковый признак: — конечное упорядоченное множество;
  • количественный признак: — множество действительных чисел.

Часто встречаются прикладные задачи с разнотипными признаками, для решения которых подходят далеко не все методы.

Если заданы признаки , то вектор называется признаковым описанием объекта .

В машинном обучении признаковые описания допустимо отождествлять с самими объектами, то есть: . При этом множество называют признаковым пространством .

Матрицей объектов-признаков (матрица информации, матрица исходных данных) называется совокупность признаковых описаний объектов обучающей выборки длины , записанная в виде матрицы размера ( строк, столбцов). Столбцы этой матрицы соответствуют признакам , а каждая строка является признаковым описаниям одного обучающего объекта. Такой вид представления является принятым в задачах классификации и регрессионного анализа , и большое число методов обучения подразумевает такое представление данных.

В приложениях

Встречающиеся на практике задачи могут не содержать удобных для математической обработки данных. Например, в задаче фильтрации спама объекты — сообщения — представлены текстами произвольной длины, могут содержать вложения различных форматов, и т. п. Для приведения данных к стандартному виду применяется процедура — извлечение признаков ( англ. feature extraction ) из данных или генерация признаков ( англ. feature generation ). Таким образом, в качестве признака можно брать и любое отображение из множества в множество значений, удобное для обработки. Ничто не мешает в качестве такого отображения взять некоторый алгоритм классификации (или регрессии), что позволяет получать сложные композиции алгоритмов.

Литература

  • Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М. : Финансы и статистика, 1983. — 471 с.
  • Журавлев Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. — М. : Фазис, 2006.
  • Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — ISBN 5-86134-060-9 .
  • Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: Data Mining, Inference, and Prediction. — Springer, 2001. — 533 p. — ISBN 9780387952840 .

Ссылки

  • , machinelearning.ru
Источник —

Same as Признаковое описание