Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Особенности задач оптимизации при обучении многослойной НС




Алгоритм обучения многослойной НС задается набором обучающих правил, которые определяют, каким образом изменяются межнейронные связи в ответ на входное воздействие. На рис. 1 схематично показана процедура обучения многослойной НС.

Вначале определенным образом устанавливаются значения весовых коэффициентов межнейронных связей. Затем из базы данных в соответствии с некоторым правилом поочередно выбираются примеры (пары обучающей выборки Xi, Yi: входной вектор Xi подается на вход сети, а желаемый результат Yi на выход сети). По формуле (1) вычисляется ошибка сети Е. Если ошибка велика, то осуществляется подстройка весовых коэффициентов для ее уменьшения, Это и есть процедура обучения сети. В стандартной ситуации описанный процессповторяется до тех пор, пока ошибка не станет меньше заданной, либо закончится время обучения.

Рис. 1 Процедура обучения многослойной НС

 

Простейший способ обучения НС - по очереди менять каждый весовой коэф­фициент сети таким образом, чтобы минимизи­ровалась ошибка сети. Этот способ является малоэффективным, целесооб­разнее вычислить совокупность производных ошибки сети по весовым коэффи­циентам - градиент ошибки по весам связей - и изменить все веса сразу на ве­личину, пропорциональную соответствующей производной. Один из возмож­ных методов, позволяющих вычислить градиент ошибки, - алгоритм обратно­го распространения - наиболее известен в процедурах обу­чения НС.

Согласно теореме Геделя о неполноте, никакая система не может быть логически замкнутой: всегда можно найти такую теорему, для доказательства которой потребуется внешнее дополнение. Поэтому критерии выбора модели сложных объектов необходимо разделять на внутренние и внешние.

Внутренние критерии вычисляются на основе результатов эксперимен­тирования с моделью объекта путем подачи на вход сети некоторого входного вектора и фиксации эталонного выходного на ее выходе. При обучении НС на основе примеров (пар) из обучающего множества вычисляется среднеквад­ратичная (или средняя квадратичная ошибка) обучения, которая является внутренним критерием. В этом случае ошибка называется ошибкой обучения.

Для оценки полученной ошибки обучения необходимо использовать внешний критерий, которым является ошибка обобщения Е обоб, вычисляемая по проверочной (тестовой) выборке. Основная цель обучения НС - создание модели объекта, обладающей свойством непротиворечивости, т.е. такой, в кото­рой ошибка обобщения сохраняется на приемлемом уровне при реализации отображения не только для примеров исходного множества пар (Xi, Yi), i = 1 ...к, но и для всего множества возможных входных векторов.

Таким образом, если ставится задача синтеза НС для отображения зависимости F: X —> Y с наименьшей ошибкой обучения, то для получения объективного результата проводится разделение исходных данных на две части, называемые обучающей и тестовой выборкой. Критерием правильности окончательных результатов является среднеквадратичная ошибка обобщения, вычисленная по тестовой выборке. Так создается первое внешнее дополнение. Если ставится задача оптимизации разделения данных на обучающую и проверочную части, то требуется еще одно внешнее дополнение. База данных в этом случае разбивается на три части: обучающую, тестовую, подтверж­дающую выборки. В этом случае на подтверждающей выборке проверяется адекватность получаемого отображения F: X -> Y объекту с задаваемой ошиб­кой обобщения. При конструировании такого отображения задача обучения НС является многокритериальной задачей оптимизации, поскольку необходимо найти общую точку минимума большого числа функций. Для обучения НС необходимо принятие гипотезы о существовании общего минимума, т.е. такой точки в поисковом пространстве, в которой значение всех оценочных функ­ций по каждой связи вход-выход близки к экстремуму. Опыт, накопленный при решении практических задач на НС показывает, что такие точки существуют.

Многокритериальность и сложность зависимости функции оценки Е от параметров НС, приводит к тому, что адаптивный рельеф (график функции оценки) может содержать много локальных минимумов. Таким образом, при поиске минимальной ошибки Е желательно использовать стохастические и глобальные методы оптимизации, такие как имитация отжига и генетический алгоритм.

Кроме того, к методам оптимизации, использующимся в процедуре обуче­ния НС, добавляют еще следующие требования. Во время процедуры обуче­ния необходимо, чтобы НС могла обретать новые навыки без потери старых, т.е. ошибка обобщения должна оставаться на приемлемом уровне. Это означает, что в достаточно большой окрестности существования точки общего мини­мума значения функции оценки Е о6о6 не должны существенно отличаться от минимума. Иными словами, точка общего минимума должна лежать в доста­точно широкой области изменения функций оценки.

Свойства алгоритма обратного распространения ошибки ( Back Propagation - ВР)

ВР – это итеративный градиентный алгоритм обучения многослойной НС без обратных связей. В такой сети на каждый нейрон первого слоя подаются все компоненты входного вектора. Все выходы скрытого слоя m подаются на слой m +1 и т.д., т.е. сеть является полносвязной. При обучении ставится задача минимизации ошибки НС, которая определяется методом наименьших квадра­тов:

p

E(W) = ½ ∑ (y j – d j)2, (1)

j=1

где уj - значение j -гo выхода НС;

dj - желаемое значение j -ro выхода; р - число нейронов в выходном слое.

 

Некоторые трудности, связанные с применением данного алгоритма в процедуре обучения НС:

Медленная сходимость процесса обучения. Сходимость ВР строго дока­зана для дифференциальных уравнений, т.е. для бесконечно малых шагов в пространстве весов. Но бесконечно малые шаги означают бесконечно большое время обучения. Следовательно, при конечных шагах сходимость алгоритма обучения не гарантируется.

Переобучение. Высокая точность, получаемая на обучающей выборке, может привести к неустойчивости результатов на тестовой выборке. Чем лучше сеть адаптирована к конкретным условиям (к обучающей выборке), тем мень­ше она способна к обобщению и экстраполяции. В этом случае сеть моделиру­ет не функцию, а шум, присутствующий в обучающей выборке. Это явление называется переобучением. Кардинальное средство борьбы с этим недостатком - использование подт­верждающей выборки примеров, которая используется для выявления пере­обучения сети. Ухудшение характеристик НС при работе с подтверждающей выборкой указывает на возможное переобучение. Напротив, если ошибка последовательно уменьшается при подаче примеров из подтверждающегося множества, сеть продолжает обучаться. Недостатком этого приема является уменьшение числа примеров, которое можно использовать в обучающем множестве (уменьшение размера обучающей выборки снижает качество работы сети). Кроме того, возникает проблема оптимального разбиения исходных дан­ных на обучающую, тестовую и подтверждающую выборку. Даже при слу­чайной выборке разные разбиения базы данных дают различные оценки.

«Ловушки», создаваемые локальными минимумами. Детерминирован­ный алгоритм обучения типа ВР не всегда может обнаружить глобальный минимум или выйти из него. Одним из способов, позволяющих обходить «ло­вушки», является расширение размерности пространства весов за счет увели­чения скрытых слоев и числа нейронов скрытого слоя. Другой способ - ис­пользование эвристических алгоритмов оптимизации, один из которых - ге­нетический алгоритм.

 

Поделиться:





Читайте также:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...