Особенности задач оптимизации при обучении многослойной НС
Алгоритм обучения многослойной НС задается набором обучающих правил, которые определяют, каким образом изменяются межнейронные связи в ответ на входное воздействие. На рис. 1 схематично показана процедура обучения многослойной НС. Вначале определенным образом устанавливаются значения весовых коэффициентов межнейронных связей. Затем из базы данных в соответствии с некоторым правилом поочередно выбираются примеры (пары обучающей выборки Xi, Yi: входной вектор Xi подается на вход сети, а желаемый результат Yi на выход сети). По формуле (1) вычисляется ошибка сети Е. Если ошибка велика, то осуществляется подстройка весовых коэффициентов для ее уменьшения, Это и есть процедура обучения сети. В стандартной ситуации описанный процессповторяется до тех пор, пока ошибка не станет меньше заданной, либо закончится время обучения. Рис. 1 Процедура обучения многослойной НС
Простейший способ обучения НС - по очереди менять каждый весовой коэффициент сети таким образом, чтобы минимизировалась ошибка сети. Этот способ является малоэффективным, целесообразнее вычислить совокупность производных ошибки сети по весовым коэффициентам - градиент ошибки по весам связей - и изменить все веса сразу на величину, пропорциональную соответствующей производной. Один из возможных методов, позволяющих вычислить градиент ошибки, - алгоритм обратного распространения - наиболее известен в процедурах обучения НС. Согласно теореме Геделя о неполноте, никакая система не может быть логически замкнутой: всегда можно найти такую теорему, для доказательства которой потребуется внешнее дополнение. Поэтому критерии выбора модели сложных объектов необходимо разделять на внутренние и внешние.
Внутренние критерии вычисляются на основе результатов экспериментирования с моделью объекта путем подачи на вход сети некоторого входного вектора и фиксации эталонного выходного на ее выходе. При обучении НС на основе примеров (пар) из обучающего множества вычисляется среднеквадратичная (или средняя квадратичная ошибка) обучения, которая является внутренним критерием. В этом случае ошибка называется ошибкой обучения. Для оценки полученной ошибки обучения необходимо использовать внешний критерий, которым является ошибка обобщения Е обоб, вычисляемая по проверочной (тестовой) выборке. Основная цель обучения НС - создание модели объекта, обладающей свойством непротиворечивости, т.е. такой, в которой ошибка обобщения сохраняется на приемлемом уровне при реализации отображения не только для примеров исходного множества пар (Xi, Yi), i = 1 ...к, но и для всего множества возможных входных векторов. Таким образом, если ставится задача синтеза НС для отображения зависимости F: X —> Y с наименьшей ошибкой обучения, то для получения объективного результата проводится разделение исходных данных на две части, называемые обучающей и тестовой выборкой. Критерием правильности окончательных результатов является среднеквадратичная ошибка обобщения, вычисленная по тестовой выборке. Так создается первое внешнее дополнение. Если ставится задача оптимизации разделения данных на обучающую и проверочную части, то требуется еще одно внешнее дополнение. База данных в этом случае разбивается на три части: обучающую, тестовую, подтверждающую выборки. В этом случае на подтверждающей выборке проверяется адекватность получаемого отображения F: X -> Y объекту с задаваемой ошибкой обобщения. При конструировании такого отображения задача обучения НС является многокритериальной задачей оптимизации, поскольку необходимо найти общую точку минимума большого числа функций. Для обучения НС необходимо принятие гипотезы о существовании общего минимума, т.е. такой точки в поисковом пространстве, в которой значение всех оценочных функций по каждой связи вход-выход близки к экстремуму. Опыт, накопленный при решении практических задач на НС показывает, что такие точки существуют.
Многокритериальность и сложность зависимости функции оценки Е от параметров НС, приводит к тому, что адаптивный рельеф (график функции оценки) может содержать много локальных минимумов. Таким образом, при поиске минимальной ошибки Е желательно использовать стохастические и глобальные методы оптимизации, такие как имитация отжига и генетический алгоритм. Кроме того, к методам оптимизации, использующимся в процедуре обучения НС, добавляют еще следующие требования. Во время процедуры обучения необходимо, чтобы НС могла обретать новые навыки без потери старых, т.е. ошибка обобщения должна оставаться на приемлемом уровне. Это означает, что в достаточно большой окрестности существования точки общего минимума значения функции оценки Е о6о6 не должны существенно отличаться от минимума. Иными словами, точка общего минимума должна лежать в достаточно широкой области изменения функций оценки. Свойства алгоритма обратного распространения ошибки ( Back Propagation - ВР) ВР – это итеративный градиентный алгоритм обучения многослойной НС без обратных связей. В такой сети на каждый нейрон первого слоя подаются все компоненты входного вектора. Все выходы скрытого слоя m подаются на слой m +1 и т.д., т.е. сеть является полносвязной. При обучении ставится задача минимизации ошибки НС, которая определяется методом наименьших квадратов: p E(W) = ½ ∑ (y j – d j)2, (1) j=1 где уj - значение j -гo выхода НС; dj - желаемое значение j -ro выхода; р - число нейронов в выходном слое.
Некоторые трудности, связанные с применением данного алгоритма в процедуре обучения НС: Медленная сходимость процесса обучения. Сходимость ВР строго доказана для дифференциальных уравнений, т.е. для бесконечно малых шагов в пространстве весов. Но бесконечно малые шаги означают бесконечно большое время обучения. Следовательно, при конечных шагах сходимость алгоритма обучения не гарантируется.
Переобучение. Высокая точность, получаемая на обучающей выборке, может привести к неустойчивости результатов на тестовой выборке. Чем лучше сеть адаптирована к конкретным условиям (к обучающей выборке), тем меньше она способна к обобщению и экстраполяции. В этом случае сеть моделирует не функцию, а шум, присутствующий в обучающей выборке. Это явление называется переобучением. Кардинальное средство борьбы с этим недостатком - использование подтверждающей выборки примеров, которая используется для выявления переобучения сети. Ухудшение характеристик НС при работе с подтверждающей выборкой указывает на возможное переобучение. Напротив, если ошибка последовательно уменьшается при подаче примеров из подтверждающегося множества, сеть продолжает обучаться. Недостатком этого приема является уменьшение числа примеров, которое можно использовать в обучающем множестве (уменьшение размера обучающей выборки снижает качество работы сети). Кроме того, возникает проблема оптимального разбиения исходных данных на обучающую, тестовую и подтверждающую выборку. Даже при случайной выборке разные разбиения базы данных дают различные оценки. «Ловушки», создаваемые локальными минимумами. Детерминированный алгоритм обучения типа ВР не всегда может обнаружить глобальный минимум или выйти из него. Одним из способов, позволяющих обходить «ловушки», является расширение размерности пространства весов за счет увеличения скрытых слоев и числа нейронов скрытого слоя. Другой способ - использование эвристических алгоритмов оптимизации, один из которых - генетический алгоритм.
Читайте также: Adv особенно, в особенности Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|