Теорема Стокса
- 1 year ago
- 0
- 0
Теорема сходимости перцептрона — это теорема , описанная и доказанная Ф. Розенблаттом (с участием Блока, Джозефа, Кестена и других исследователей, работавших вместе с ним). Она показывает, что элементарный перцептрон , обучаемый по методу коррекции ошибки (с квантованием или без него), независимо от начального состояния весовых коэффициентов и последовательности появления стимулов всегда приведёт к достижению решения за конечный промежуток времени. Ф. Розенблаттом также были представлены доказательства ряда сопутствующих теорем, следствия из которых позволяли сделать вывод о том, каким условиям должны соответствовать архитектура искусственных нейронных сетей и методы их обучения.
Прежде, чем доказать основную теорему сходимости перцептрона, Ф. Розенблатт показал, что архитектура перцептрона достаточна для того, чтобы получить решение любой мыслимой задачи на классификацию , то есть тем самым перцептрон представляет собой «универсальную систему».
Далее Ф. Розенблатт показал и доказал в
теореме 2
, что необходимыми, но ещё не достаточными условиями существования решения, являются следующие:
Второе условие нуждается в пояснении. Коэффициентом смещения для А-элемента Ф. Розенблатт называл отношение числа стимулов в обучающей выборке, которые относятся к одному классу, и возбуждают данный А — элемент, к числу стимулов, относящихся к другому классу, но также возбуждающие этот же А-элемент. Нарушение второго условия делает отношение постоянным для А-элементов, реагирующих на стимулы из такой определённой подпоследовательности появления стимулов на входах перцептрона. И из-за этого, как доказывается в теореме 2 , по крайней мере один из стимулов будет классифицирован неправильно.
Розенблатт также показал, что этих условий будет недостаточно, на следующем примере
Стимул | Возбуждает А-элементы | Принадлежит к классу |
---|---|---|
№ 1 | № 1 | № 1 (положительному) |
№ 2 | № 2 | № 1 (положительному) |
№ 3 | № 3 и № 4 | № 1 (положительному) |
№ 4 | № 1, № 2 и № 3 | № 2 (отрицательному) |
№ 5 | № 1, № 2 и № 4 | № 2 (отрицательному) |
А — элемент | Коэффициент смещения |
---|---|
№ 1 | 1/2 |
№ 2 | 1/2 |
№ 3 | 1/1 |
№ 4 | 1/1 |
Данный пример удовлетворяет двум необходимым условиям, но тем не менее не имеет решения. Чтобы получить нужную классификацию для первого класса, требуется:
Чтобы получить нужную классификацию для второго класса, требуется:
Отсюда видно, что если у нас весовые коэффициенты для А-элементов № 1 и № 2 положительные, и хотя бы один из весовых коэффициентов для А-элементов № 3 и № 4 положителен, то тем самым мы можем добиться, чтобы сумма весов № 1(+), № 2(+) и № 3(-) была бы отрицательной, но вынуждены в таком случае вес № 4 оставить положительным, и тогда сумма № 1(+), № 2(+) и № 4(+) никак не может быть отрицательной. Таким образом, либо стимул № 4, либо стимул № 5 будут классифицированы неправильно. Это и называется отсутствие схождения при решении классификации.
В чистом виде достаточные условия Розенблатт описывает только позже в следующей теореме, предложенной Джозефом:
но так как это математическое представление, хотя и более элегантное, но тем не менее мало говорящие о том, какие нужно выполнить условия в терминах архитектуры перцептрона, Розенблатт прежде доказывает следующую теорему:
Но практически значимыми являются три следствия из этой теоремы:
В основной теореме сходимости Ф. Розенблатт показывает, что существующие возможные решения могут быть достигнуты именно при применении алгоритма обучения с коррекцией ошибки:
В ряде следующих теорем Ф. Розенблатт показывает, какими характеристиками должен обладать алгоритм обучения, чтобы он мог достичь решения.
Не существует конечного автомата, выполнявшего функцию умножения двух двоичных чисел a и b произвольной разрядности
Марвин Минский привел ряд своих доказательств теоремы сходимости перцептрона. Но его доказательства позволили судить о величине весовых коэффициентов, что существенно для хранения их в памяти компьютера, а также о числе необходимых коррекций весовых коэффициентов, что важно при оценке скорости обучения перцептрона.
Для оценки ёмкости памяти требуемой для хранения весовых коэффициентов, при решении обучении предикату «четность», Минский исходил из нижеследующих соображений. Для любого единообразного представления коэффициентов необходимо по бит на каждый, где — число точек на сетчатке перцептрона. Это следует из того, что таким должен быть вес самого большого коэффициента, чтобы выполнялись условия существования решения. А необходимое число коэффициентов (максимально необходимое) . Следовательно, потребуется бит. Если сравнивать это число с тем, что получится в случае, если запомнить все возможные изображения, которые могут быть нанесены на сетчатку перцептрона, то понадобится ёмкость = . При таких предположениях получается, что перцептрону для весовых коэффициентов ёмкости требуется практически столько же, как для запоминания всех возможных изображений.
Для оценки числа итераций , требующихся элементарному перцептрону чтобы определить весовые коэффициенты, Минский проанализировал обучение предикату «четность», которая есть одна из наиболее теоретически сложных для перцептрона. При этом он взял перцептрон с наименьшим возможным числом А-элементов, а следовательно и с наименьшим числом весовых коэффициентов, и для этого случая определил нижнюю и верхнюю границу числа коррекций: , где — число точек на сетчатке перцептрона.
Поэтому критика Минского в отношении сходимости перцептрона указывает на то, что:
то перцептрон потребует нереально большой памяти компьютера и длительного времени обучения, даже несмотря на то, что теорема сходимости говорит о конечном числе итераций.
Здесь следует добавить только то, что для большинства задач распознавания реальных изображений не требуется находить такие математические функции, а отличительные черты изображений разного класса могут быть найдены учитывая лишь маленькую область, например, состоящую из 20 точек из 8000 возможных. Построив такие предикаты от 20 элементов (предикаты соответствуют А-элементам), можно классифицировать изображения, не учитывая все их особенности (как правило число таких предикатов, как было сказано выше, находится в пределах 60-80 % от числа всех изображений). Это указывает на тот факт, что число осмысленных изображений в определённой размерности на несколько порядков меньше, чем число всевозможных изображений. Если не требовать выполнения некоторой математической функции (сдвиг, поворот) над такими осмысленными изображениями, становится ясным, что перцептрон может не только оптимально запоминать для классифицирования ряд изображений, но и работать в некотором смысле алгоритмом сжатия изображений с потерями , точно относящим их к требуемому классу.