Признак д’Аламбера
- 1 year ago
- 0
- 0
Признак в машинном обучении — индивидуальное измеримое свойство или характеристика наблюдаемого явления . Выбор информативных, отличительных и независимых признаков является критическим шагом для эффективных алгоритмов в распознавании образов , классификации и регрессии . Признаки обычно являются числовыми, но структурные признаки, такие как строки и графы , используются в . Понятие «признака» связано с объясняющими переменными , используемыми в статистических техниках, таких как линейная регрессия .
Множество числовых признаков удобно описать вектором признаков. Пример достижения классификации по двум признакам из вектора признаков (связанных с перцептроном ) состоит из вычисления скалярного произведения вектора признаков и вектора весов, сравнения результата с пороговым значением и решения, к какому классу принадлежит объект на основе этого сравнения.
Алгоритмы классификации, опирающиеся на вектора признаков, включают классификацию ближайших соседей , нейронные сети и статистические техники , такие как байесовский подход .
В распознавании знаков признаки могут включать гистограммы , включающие число чёрных точек вдоль горизонтальных и вертикальных направлений, число внутренних пустот, выделение штрихов и многие другие.
В распознавании речи признаки для распознавания фонем могут включать коэффициент шума, длину звуков, относительную громкость, соответствие фильтрам и многое другое.
В алгоритмах выделения спама признаки могут включать присутствие или отсутствие некоторых заголовков email, структуру email, язык, частоту определённых терминов, грамматическую правильность текста.
В компьютерном зрении существует большое число возможных , таких как рёбра и объекты.
В распознавании образов и машинном обучении вектор признаков является n-мерным вектором числовых признаков, который представляет некоторый объект. Многие алгоритмы в машинном обучении требуют численное представление объектов, поскольку такие представления способствуют обработке и статистическому анализу. При работе с изображениями признак может соответствовать растровым точкам (пикселям) изображения, в то время как признаки для текста могут соответствовать частоте использования терминов в тексте. Вектора признаков эквивалентны векторам объясняющих переменных , используемых в статистических процедурах, таких как линейная регрессия . Вектора признаков часто комбинируются с весами, используя скалярное произведение для построения , которая используется для определения оценки для предсказания.
Векторное пространство , ассоциированное с этими векторами, часто называется пространством признаков . Для сокращения размерности пространства признаков может быть использовано несколько методов снижения размерности .
Признаки более высокого уровня можно получить из уже известных признаков и они могут быть добавлены к вектору признаков. Например, для изучения болезней полезен признак «возраст», который можно определить как возраст = «год смерти» минус «год рождения» . Об этом процессе говорят как о построении признака . Построение признака — это приложение множества операторов построения к множеству существующих признаков, приводящее к построению новых признаков. Примеры таких операторов построения включают проверку на равенство {=, ≠}, арифметические операторы {+,−,×, /}, операторы для массивов {max(S), min(S), average(S)}, а также другие более сложные операторы, например, count(S,C) , который подсчитывает число признаков в векторе признаков S, удовлетворяющих некоторому условию C, или, например, расстояния до другого класса распознавания, обобщённого некоторым устройством. Построение признака считается мощным средством для как увеличения точности, так и улучшения понимания структуры, особенно в задачах высокой размерности . Приложения включают изучение болезней и при разговоре .
Начальное множество сырых признаков может быть избыточным и слишком большим для обработки. Таким образом, предварительный шаг во многих приложениях машинного обучения и распознавания образов состоит из отбора подмножества признаков или построения нового сокращённого множества признаков для обеспечения обучения улучшения общности и интерпретируемости.
Выделение или отбор признаков является комбинаций искусства и науки. Системы, позволяющие сделать это, известны как системы конструирования признаков . Для выделения и отбора признаков требуется проведение экспериментов со многими возможностями, а также нужно уметь комбинировать автоматизированные техники с интуицией и обладать знаниями в этой области. Автоматизация этого процесса называется обучением признакам , где машина не только использует признаки для собственного обучения, но и обучается новым признакам.