Секс, ложь и видео
- 1 year ago
- 0
- 0
Нейроуправление ( англ. Neurocontrol ) — частный случай интеллектуального управления , использующий искусственные нейронные сети для решения задач управления динамическими объектами. Нейроуправление находится на стыке таких дисциплин, как искусственный интеллект , нейрофизиология , теория автоматического управления , робототехника . Нейронные сети обладают рядом уникальных свойств, которые делают их мощным инструментом для создания систем управления: способностью к обучению на примерах и обобщению данных, способностью адаптироваться к изменению свойств объекта управления и внешней среды, пригодностью для синтеза нелинейных регуляторов, высокой устойчивость к повреждениям своих элементов в силу изначально заложенного в нейросетевую архитектуру параллелизма. Термин «нейроуправление» впервые был использован одним из авторов метода обратного распространения ошибки Полом Дж. Вербосом в 1976 году . Известны многочисленные примеры практического применения нейронных сетей для решения задач управление самолётом , вертолётом , автомобилем-роботом , скоростью вращения вала двигателя , гибридным двигателем автомобиля , электропечью , турбогенератором , сварочным аппаратом , пневмоцилиндром , системой управления вооружением легкобронированных машин , моделью перевернутого маятника .
По способу использования нейронных сетей методы нейроуправления делятся на прямые и непрямые . В прямых методах нейронная сеть обучается непосредственно генерировать управляющие воздействия на объект, в непрямых методах нейронная сеть обучается выполнять вспомогательные функции: идентификация объекта управления , , оперативная настройка коэффициентов ПИД-контроллера . В зависимости от числа нейросетей, составляющих нейроконтроллер, системы нейроуправления делятся на одномодульные и многомодульные . Системы нейроуправления, которые применяются совместно с традиционными регуляторами, называются гибридными .
В области управления искусственные нейронные системы (ИНС) находят применение в задачах идентификации объектов, в алгоритмах прогнозирования и диагностики, а также для синтеза оптимальных Автоматических Систем Регулирования (АСР). Для реализации АСР на основе ИНС в настоящее время интенсивно развивается производство нейрочипов и нейроконтроллеров (НК).
В определённом смысле ИНС является имитатором мозга, обладающего способностью к обучению и ориентации в условиях неопределенности. Искусственная нейросеть сходна с мозгом в двух аспектах. Сеть приобретает знания в процессе обучения, а для сохранения знаний использует не сами объекты, а их связи — значения коэффициентов межнейронных связей, называемые синаптическими весами или синаптическими коэффициентами .
В задачах нейроуправления для представления объекта управления используют модель чёрного ящика, в котором наблюдаемыми являются текущие значения входа и выхода. Состояние объекта считается недоступным для внешнего наблюдения, хотя размерность вектора состояний обычно считается фиксированной. Динамику поведения объекта управления можно представить в дискретном виде:
где: — состояние объекта управления порядка на такте ; — значение -мерного вектора управления на такте , — значение -мерного выхода объекта управления на такте .
Для оценки текущего состояния объекта управления может быть использована модель NARX, состоящая из прошлых положений объекта и задержанных сигналов управления :
Вектор оценки состояния может быть также представлен без использования задержанных сигналов:
Также возможно представить состояние объекта как мгновенный снимок его фазовой траектории:
Подражающее нейроуправление (Neurocontrol learning based on mimic, controller modeling, supervised learning using an existing controller) охватывает системы нейроуправления, в которых нейроконтроллер обучается на примерах динамики обычного контроллера по обратной связи , построенного, например, на основе обычной ПИД-схемы управления . После обучения нейронная сеть в точности воспроизводит функции исходного контроллера. В качестве примеров динамики контроллера может быть использована запись поведения человека-оператора. Обычный контроллер по обратной связи (или человек-оператор) управляет объектом управления в штатном режиме. Значения величин на входе и выходе контроллера протоколируются, и на основе протокола формируется обучающая выборка для нейронной сети, содержащая пар значений входа и ожидаемых реакций нейросети:
После обучения с помощью, например, метода обратного распространения ошибки , нейронная сеть подключается вместо исходного контроллера. Полученный нейроконтроллер может заменить человека в управлении устройством, а также быть более выгодным экономически, чем исходный контроллер.
В схеме обобщённого инверсного нейроуправления (generalized inverse neurocontrol, direct inverse neurocontrol, adaptive inverse control) в качестве контроллера используется нейронная модель инверсной динамики объекта управления, называемая инверсный нейроэмулятор . Инверсный нейроэмулятор представляет собой нейронную сеть , обученную в режиме офлайн имитировать обратную динамику объекта управления на основе записанных траекторий поведения динамического объекта. Для получения таких траекторий на объект управления в качестве управляющего сигнала подают некоторый случайный процесс. Значения управляющих сигналов и ответных реакций объекта протоколируют и на этой основе формируют обучающую выборку :
В ходе обучения нейронная сеть должна уловить и запомнить зависимость значений управляющего сигнала от последующего значения реакции объекта управления , находящегося перед этим в состоянии . При управлении объектом инверсный нейроэмулятор подключается как контроллер, получая при этом на вход значения уставки (некоторой величины или параметра, по достижении которого происходит изменение состояния системы) и состояния объекта управления , поступающего по каналу обратной связи :
Предполагается, что сформированная при обучении инверсная модель объекта управления является адекватной, следовательно, сигнал управления, выдаваемый нейронной сетью, обеспечит переход объекта в положение, заданное уставкой.
Специализированное инверсное нейроуправление (specialised inverse neurocontrol) использует методику обучения нейроконтроллера в режиме онлайн, используя текущую ошибку отклонения положения объекта от уставки . Схема подключения нейроконтроллера такая же, как в . На вход сети подается вектор :
Нейронная сеть генерирует управляющий вектор , который переводит объект управления в положение . Далее вычисляется текущая ошибка работы нейроконтроллера
Вычисляется градиент изменения весов
Затем производится коррекция весов нейроконтроллера по методу наискорейшего спуска или каким-либо другим градиентным методом .
Производная представляет собой якобиан объекта управления, значение которого задается аналитически по заданной математической модели объекта управления. Однако, на практике, для получения приемлемого качества управления часто бывает достаточно вычислить лишь знак якобиана. Итерации коррекции значений коэффициентов продолжаются до достижения приемлемого качества управления.
Метод обратного пропуска ошибки через прямой нейроэмулятор (backpropagation through time, model reference adaptive control, internal model control) основан на идее применения тандема из двух нейронных сетей , одна из которых выполняет функцию контроллера , а вторая — модели объекта управления , которая носит название прямой нейроэмулятор . Прямой нейроэмулятор служит для вычисления градиента ошибки нейроконтроллера в процессе его обучения и далее не используется. Можно сказать, что нейроконтроллер и нейроэмулятор представляют собой единую нейросеть, при этом при обучении нейроконтроллера веса прямого нейроэмулятора «замораживаются». Прямой нейроэмулятор обучается первым. Для этого на вход объекта управления подаётся случайный управляющий сигнал , изменяющий положение объекта управления , и формируется обучающая выборка :
Обучение прямого нейроэмулятора выполняется в режиме офлайн. Прямой нейроэмулятор считается обученным, если при одинаковых значениях на входах нейроэмулятора и реального объекта отличие между значениями их выходов становится незначительным. После завершения обучения прямого нейроэмулятора проводится обучение нейроконтроллера. Обучение выполняется в режиме онлайн по такой же схеме, как и в случае . Сначала (на такте ) на вход нейроконтроллера поступает желаемое положение объекта управления для следующего такта . Нейроконтроллер генерирует сигнал управления , который поступает на входы объекта управления и нейроэмулятора. В результате управляемый объект переходит в положение , а нейроэмулятор генерирует реакцию . Далее вычисляется ошибка управления и пропускается в обратном направлении по правилу обратного распространения. Весовые коэффициенты связей нейроэмулятора при этом не корректируются. Механизм обратного прохождения ошибки через прямой нейроэмулятор реализует локальную инверсную модель в текущей точке пространства состояний объекта управления. Пройдя через нейроэмулятор, ошибка далее распространяется через нейроконтроллер, но теперь её прохождение сопровождается коррекцией весовых коэффициентов нейроконтроллера. Прямой нейроэмулятор при этом выполняет функции дополнительных слоев нейроной сети нейроконтроллера, в которых веса связей не корректируются.
Метод нейроуправления с эталонной моделью (model reference adaptive control, neural adaptive control) — вариант нейроуправления по с дополнительно внедрённой в схему эталонной моделью (reference model) динамической системы, имитировать поведение которой обучается нейроконтроллер. Это делается в целях повышения качества переходного процесса: в случае, когда переход объекта в целевое положение за один такт невозможен, траектория движения и время осуществления переходного процесса становятся плохо прогнозируемыми величинами и могут привести к неустойчивости переходного процесса. Для уменьшения этой неопределенности вводится эталонная модель, представляющая собой, как правило, устойчивую линейную динамическую систему первого или второго порядка. В ходе обучения эталонная модель на такте получает на вход уставку и генерирует опорную траекторию , которая сравнивается с положением объекта управления с целью получить ошибку управления , минимизировать которую обучается нейроконтроллер.
Метод нейросетевой фильтрации внешних возмущений (adaptive inverse control based on linear and nonlinear adaptive filtering, internal model control) служит для улучшения качества работы контроллера в цепи управления. Изначально эта схема была предложена для использования совместно с нейроконтроллерами, обученными по методу . В более поздней работе им были применены нейроконтроллеры, обученные по . В принципе, нейросетевую фильтрацию ошибок можно использовать для повышения качества работы контроллера любого типа, не обязательно нейросетевого . В этой схеме используется две предварительно обученных нейронных сети: инверсный нейроэмулятор, обученный так же, как это делается в и прямой нейроэмулятор, обученный так же, как это делается в . Пусть на объект управления поступает управляющий сигнал , явившийся результатом суммирования сигнала контроллера и корректирующего сигнала системы фильтрации внешних возмущений , вычисленного на предыдущем такте. Сигнал направляется на прямой нейроэмулятор объекта управления, а реакция прямого нейроэмулятора сравнивается с реальным положением системы . Разница этих величин трактуется как нежелательное отклонение системы, вызванное внешним возмущением. Для подавления нежелательного эффекта сигнал поступает на инверсный нейроэмулятор, который рассчитывает корректирующий сигнал для корректировки управляющего сигнала нейроконтроллера на следующем такте.
Для использования этого метода объект управления должен обладать обращаемой динамикой, а также необходимо иметь адекватную математическую или имитационную модель объекта управления для обучения прямого и инверсного нейроэмуляторов.
Прогнозирующее модельное нейроуправление (NN predictive control, model predictive control, neural generalized predictive control) минимизирует функционал стоимости интегральной ошибки , прогнозируемой на , тактов вперед:
Здесь — ошибка выхода системы, — вклад изменения управляющего сигнала в общий функционал стоимости . Для прогнозирования будущего поведения системы и вычисления ошибок используется прямой нейроэмулятор, обученный так же, как в . Примечательность рассматриваемого метода состоит в том, что в нём отсутствует обучаемый нейроконтроллер. Его место занимает оптимизационный модуль, работающий в режиме реального времени, в котором может быть использован, например, симплекс-метод или квази-Ньютоновский алгоритм .
Оптимизационный модуль получает на такте целевую траекторию на тактов вперед, а если её нет, то раз дублирует значение текущей уставки и использует это в качестве целевой траектории. Далее, для выбора оптимального управляющего воздействия, вычисления происходят во внутреннем цикле системы нейроуправления (его итерации обозначаются как ). За время одного такта управления оптимизационный модуль подаёт на вход нейроэмулятора серию различных воздействий , где — глубина прогнозирования, , получает различные варианты поведения системы, вычисляет для них функцию стоимости и определяет наилучшую стратегию управления . В итоге, на объект подается управляющий сигнал . На следующем такте стратегия пересчитывается заново.
Методы нейроуправления на основе адаптивной критики (adaptive critics), которые также известны как приближенное динамическое программирование ( approximated dynamic programming , ADP ), в последние годы весьма популярны . Системы адаптивной критики выбирают управляющий сигнал на основе минимизации функционала оценок ошибок будущего с бесконечным горизонтом:
Здесь — коэффициент забывания, , — отклонение траектории объекта управления от уставки, вычисляемое на каждом такте работы системы. Система включает два нейронных модуля: нейроконтроллер и модуль критики ( критик ). Модуль критики выполняет аппроксимацию значений функционала стоимости , нейроконтроллер обучают минимизировать функционал стоимости .
В режиме управления объектом на вход нейроконтроллера поступает вектор , вызывающий появление на его выходе сигнала управления , в результате чего объект управления переходит в положение . Далее производится вычисление значения текущей ошибки управления . Модуль критики, получая на входе вектор , производит оценку функции стоимости . На следующем такте процесс повторяется: вычисляются новые значения и . Обучение системы нейроуправления происходит в режиме онлайн и состоит из двух этапов: обучения модуля критики и обучения нейроконтроллера. Сначала рассчитывается ошибка временной разности . Затем по методу наискорейшего спуска выполняется коррекция веса связей для модуля критики :
Значение градиента рассчитывается по методу обратного распространения ошибки . Коррекция веса связей нейроконтроллера производится аналогично:
Значение производной находят путём обратного распространения величины через модуль критики, а значение градиента — путём обратного распространения ошибки через модуль контроллера. Коррекция весов продолжается, пока система не достигнет требуемого уровня качества управления. Таким образом, на каждом шаге улучшается закон управления, путём обучения нейроконтроллера (итерация по стратегиям, policy iteration), а также повышается способность системы оценивать ситуацию, путём обучения критика (итерация по значениям, value iteration). Конкретная схема построения системы адаптивной критики может отличаться от вышеописанной, носящей название эвристическое динамическое программирование ( heuristic dynamic programming , HDP ). В методе дуального эвристического программирования ( dual heuristic programming , DHP ) модуль критики вычисляет производную функционала глобальной стоимости , а в методе глобального дуального эвристического программирования ( global dual heuristic programming , GHDP ) критиком вычисляются как сам функционал функции стоимости , так и его производная . Известны модификации метода, в которых модуль критики принимает решения исключительно на основе управляющего сигнала. Их англоязычные аббревиатуры имеют приставку AD ( action dependent ): ADHDP , ADDHP , ADGDHP . В некоторых версиях адаптивной критики модуль критики состоит из двух частей: собственно, модуля критики и прямого нейроэмулятора. Последний выдает предсказания поведение объекта управления, на основе которых критик формирует оценку функции стоимости . Такие версии носят название основанные на модели ( model based ).
Гибридное нейро-ПИД управление (NNPID auto-tuning, neuromorphic PID self-tuning) позволяет осуществлять самонастройку ПИД-регулятора в режиме онлайн путём использованием нейронных сетей . Настройка ПИД-регулятора выполняется в режиме онлайн, по текущей ошибке управления . На такте нейронная сеть получает уставку и генерирует коэффициенты управления ПИД-контроллера (пропорциональный), (интегральный), (дифференциальный), которые поступают на ПИД-контроллер вместе со значением текущей ошибки обратной связи . В ходе работы, ПИД-контроллер рассчитывает текущий управляющий сигнал по рекуррентной формуле:
применяемой для дискретных ПИД-контроллеров и подает его на объект управления.
Обучение нейросети происходит в режиме реального времени по ошибке обратной связи, методом наискорейшего спуска .
Здесь — вектор выходов нейронной сети, поступающий на ПИД-контроллер.
Градиенты вычисляют методом обратного распространения ошибки . Якобиан объекта управления ли его знак находится аналитически, на основе математической модели объекта управления.
Методы гибридного параллельного нейроуправления (parallel neurocontrol, stable direct adaptive control, additive feedforward control) предусматривают параллельное использование нейроконтроллеров и обычных контроллеров для управления динамическими объектами. При этом нейроконтроллер и обычный контроллер, в роли которого выступает, например, ПИД-контроллер , получают одинаковые значения уставки. Возможны следующие варианты совместного подключения обычного контроллера и нейроконтроллера:
При этом обычный контроллер рассчитывается на управление объектом вне этой области пространства состояния. При параллельной работе обоих контроллеров управляющий сигнал поступает на объект либо от нейроконтроллера, если текущее состояние системы находится в пределах области , либо, в противном случае, от обычного контроллера. Гибридное параллельное нейроуправление представляет компромиссное решение для внедрения нейроуправления в промышленность и перехода от обычных контроллеров к нейросетевым.