Interested Article - Конструирование признаков

Конструирование признаков — процесс использования предметной области для определения признаков , используемых для машинного обучения . Конструирование признаков является неформальной областью, но считается важной составляющей машинного обучения; как отмечал Эндрю Ын , «прикладное машинное обучение — в основном это конструирование признаков».

Признак может быть строго существенен (имеет информацию, которая не существует в других признаках), существенен, малосущественен (содержит информацию, которая может содержаться в других признаках) или несущественен . Важно создать много признаков, даже если некоторые из них будут несущественны, затем может быть использован отбор признаков для предотвращения переобучения .

Взрыв признаков может быть вызван путём комбинации признаков или шаблонов признаков, что ведёт к быстрому росту общего числа признаков.

Шаблоны признаков — внедрение шаблонов признаков вместо кодирования новых признаков

Комбинации признаков — комбинации, которые не могут быть представлены в виде линейной комбинации Существует несколько решений для останова взрыва признаков, такие как регуляризация , ядерный метод , отбор признаков .

Автоматическое конструирование признаков

Необходимости трудоёмкого ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам .

В 2015 году исследователи Массачусетского технологического института представили алгоритм «Deep Feature Synthesis» (глубокий синтез признаков, опубликован как открытая библиотека Featuretools) и продемонстрировали его эффективность: алгоритм переиграл 615 из 906 команд людей . Эту работу продолжили другие исследователи, включая OneBM компании IBM и ExploreKit компании Berkeley . Исследователи из IBM утверждают, что автоматизация конструирования признаков «помогает сократить время исследования данных, позволяя экспериментировать на них методом проб и ошибок за короткое время. С другой стороны, это даёт возможность, не будучи экспертом, то есть, не будучи знакомым с методами анализа данных, быстро выбрать значение из данных с небольшими усилиями, временными и денежными затратами.»

Появились коммерческие продукты от новых компаний, фокусирующихся на машинном обучении, такие как H20.ai и Feature Labs .

См. также

Примечания

  1. (22 апреля 2010). Дата обращения: 12 ноября 2015. 6 сентября 2015 года.
  2. . Alexandre Bouchard-Côté. Дата обращения: 12 ноября 2015. 14 марта 2016 года.
  3. . Zdenek Zabokrtsky. Дата обращения: 12 ноября 2015. Архивировано из 4 марта 2016 года.
  4. . Дата обращения: 30 октября 2018. 14 сентября 2019 года.
  5. . Дата обращения: 30 октября 2018. 18 августа 2019 года.
  6. . Дата обращения: 30 октября 2018. 4 октября 2019 года.
  7. . Дата обращения: 30 октября 2018. 4 октября 2019 года.
  8. . Дата обращения: 30 октября 2018. 1 ноября 2018 года.
  9. . Дата обращения: 30 октября 2018. 1 декабря 2018 года.
Источник —

Same as Конструирование признаков