Машинное слово
- 1 year ago
- 0
- 0
|
Этот перевод статьи с другого языка
требует улучшения (см.
Рекомендации по переводу
)
.
|
Гиперпараметр — параметр машинного обучения , значение которого используется для управления процессом обучения. Его значение устанавливается перед началом обучения, в отличие от значений других параметров (обычно весов узлов), которые определяются во время обучения.
Гиперпараметры могут быть подразделены на гиперпараметры модели — они относятся к задаче выбора модели и не могут быть определены во время обучения машины c помощью обучающего набора , примером таких гиперпараметров являются топология и размер нейронной сети ; и гиперпараметры алгоритма, которые в принципе не имеют влияния на производительность модели но оказывают воздействие на скорость и качество процесса обучения, примером таких гиперпараметров являются темп обучения и размер набора данных (batch size) , также как и размер мини-набора данных (mini-batch size). Набором данных часто называться полная выборка данных, а мини-набором данных размер выборки меньших размеров.
Учитывая гиперпараметры, алгоритм обучения с помощью данных настраивает собственные параметры. Для различных алгоритмов обучения модели требуются различные гиперпараметры. Некоторым простым алгоритмам (таким как линейной регрессии ) они не требуются, а например, в алгоритме LASSO, в котором в алгоритм регрессии обычных наименьших квадратов добавляется гиперпараметр регуляризации , этот гиперпараметр должен быть установлен перед оценкой параметров с помощью алгоритма обучения .
Время, необходимое для обучения и тестирования модели, может зависеть от выбора её гиперпараметров . Гиперпараметр обычно имеет непрерывный или целочисленный тип данных , что приводит к проблемам оптимизации связанным со смешанными типами . Существование некоторых гиперпараметров зависит от значения других гиперпараметров, например размер каждого скрытого слоя в нейронной сети может зависеть от количества слоев .
Настраиваемость алгоритма, гиперпараметра, или взаимодействия гиперпараметров — это измерение, показывающее насколько высокую производительность можно получить при использовании такой настройки. Большая часть изменений производительности может быть связана всего с несколькими гиперпараметрами. Например, в нейронных сетях LSTM , темп обучения и размер сети являются самыми критическими гиперпараметрами, а пакетирование и инерция не имеют значительного влияния на производительность. До сих пор существуют споры об оптимальных значениях гиперпараметров, так, например, хотя некоторые исследования выступают за использование размеров мини-пакетов с тысячами экземпляров, другие исследования обнаружили, что самая лучшая производительность достигается при использовании мини-пакетов размером от 2 и 32 экземпляров .
В большинстве случаев, значения гиперпараметров не могут быть определены с использованием распространённых градиентных методов, которые обычно используются для нахождения значения параметров модели (например, таких как градиентный спуск LBFGS). Эти гиперпараметры являются параметрами, описывающими представление модель, значения которых не могут быть определены с помощью использования основных методов оптимизации, но которые, тем не менее, имеют влияние на функцию потерь. Примером может служить гиперпараметр толерантности к ошибкам в методе опорных векторов .
Иногда значения гиперпараметров не могут быть получены с использованием обучающих данных, потому что они агрессивно увеличивают сложность модели и могут сдвинуть функцию потерь на нежелаемый минимум (за счёт переобучения на шуме в данных) вместо корректного учёта реальной структуры этих данных. Например, если мы рассматриваем степень полиномиального уравнения, соответствующего регрессионной модели, в качестве обучаемого параметра , то степень будет увеличиваться до тех пор, пока модель не будет идеально подходить к данным, выдавая небольшую ошибку при обучении, но плохую производительность обобщения.
Оптимизация гиперпараметров — это поиск набора гиперпараметров и их значений, которые дают оптимальную модель, минимизирующую предопределенную функцию потерь на предоставленных обучающих данных. Целевая функция получит набор гиперпараметров на входе и возвращает связанные потери.
Кроме настраивания гиперпараметров, системный подход к использованию машинного обучения включает хранение и организацию гиперпараметров и результатов, связанных с ними, а также уверенность в воспроизводимости полученных ранее результатов, при использовании тех же значений гиперпараметров. При отсутствии надежной инфраструктуры для этих целей, исследовательский код часто быстро развивается, но ставит под угрозу такие важные аспекты, как учёт и воспроизводимость . Существуют платформы для онлайн-сотрудничества, предназначенные для машинного обучения, которые позволяют ученым автоматически делиться, организовывать и обсуждать эксперименты, данные, и алгоритмы. Воспроизводимость может быть особенно сложной для моделей глубоко обучения .
{{
cite journal
}}
:
Cite journal требует
|journal=
(
справка
)
Для улучшения этой статьи
желательно
:
|