Характеристика методов обучения
⇐ ПредыдущаяСтр 7 из 7 Методы, используемые при обучении нейронных сетей, во многом аналогичны методам определения экстремума функции нескольких переменных. В свою очередь, последние делятся на 3 категории - методы нулевого, первого и второго порядка. В методах нулевого порядка для нахождения экстремума используется только информация о значениях функции в заданных точках. В методах первого порядка используется градиент функционала ошибки по настраиваемым параметрам (3.16) где хk -вектор параметров; а k - параметр скорости обучения; g k -градиент функционала, соответствующие итерации с номером к. Вектор в направлении, противоположном градиенту, указывает направление кратчайшего спуска по поверхности функционала ошибки. Если реализуется движение в этом направлении, то ошибка будет уменьшаться. Последовательность таких шагов в конце концов приведет к значениям настраиваемых параметров, обеспечивающим минимум функционала. Определенную трудность здесь вызывает выбор параметра скорости обучения аk. При большом значении параметра а k, сходимость будет быстрой, но существует опасность пропустить решение или уйти в неправильном направлении. Классическим примером является ситуация, когда алгоритм очень медленно продвигается по узкому оврагу с крутыми склонами, перепрыгивая с одного на другой. Напротив, при малом шаге, вероятно, будет выбрано верное направление, однако при этом потребуется очень многоитераций. В зависимости от принятого алгоритма параметр скорости обучения может быть постоянным или переменным. Правильный выбор этого параметра зависит от конкретной задачи и обычно осуществляется опытным путем; в случае переменного параметра его значение уменьшается по мере приближения к минимуму функционала.
В алгоритмах сопряженного градиента [12] поиск минимума выполняется в сопряженных направлений, что обеспечивает обычно более быструю сходимость при наискорейшем спуске. Все алгоритмы сопряженных градиентов на первой итег начинают движение в направлении антиградиента Тогда направление следующего движения определяется так, чтобы оно было сопря с предыдущим. Соответствующее выражение для нового направления движения явг. комбинацией нового направления наискорейшего спуска и предыдущего направо. Здесь рк — направление движения, - градиент функционала ошибки, -коэффициент соответствуют итерации с номером к. Когда направление спуска определяет новое значение вектора настраиваемых параметров вычисляется по форм Методы второго порядка требуют знания вторых производных функционала ошибка К методам второго порядка относится метод Ньютона. Основной шаг метода Ньютона определяется по формуле где хk - вектор значений параметров на k- йитерации; Н — матрица вторых частных производных целевой функции, или матрица Гессе; - вектор градиента на k-й итог Во многих случаях метод Ньютона сходится быстрее, чем методы сопряженного градиента, но требует больших затрат из-за вычисления гессиана. Для того чтобы избежать числения матрицы Гессе, предлагаются различные способы ее замены приближен выражениями, что порождает так называемые квазиньютоновы алгоритмы (алг метода секущих плоскостей OSS [1], алгоритм LM Левенберга – Марквардта
Алгоритмы обучения
Алгоритмы обучения, как правило, функционируют пошагово; и эти шаги принято называть эпохами или циклами. На каждом цикле на вход сети последовательно по; все элементы обучающей последовательности, затем вычисляются выходные зк. сети, сравниваются с целевыми и вычисляется функционал ошибки. Значения функционала, а также его градиента используются для корректировки весов и смещений, после все действия повторяются. Начальные значения весов и смещений выбираются с начальным образом, а процесс обучения прекращается, когда выполнено определенное свойство циклов либо когда ошибка достигнет некоторого малого значения или пере уменьшаться.
При такой формализации задачи обучения предполагаются известными жег (целевые) реакции сети на входные сигналы, что ассоциируется с присутствием у-а поэтому такой процесс обучения называют обучением с учителем. Для некоторых нейронных сетей задание целевого сигнала не требуется, и в этом случае процесс обучения называют обучением без учителя.
Список литературы 1 “Нейронные сети для обработки информации” Станислав Осовский Москва “Финансы и статистика” 2002г. 343с. 2 “Основы теории нечётких и гибридных систем” Н.Г. Ярушкина Москва “Финансы и статистика” 2004г. 320с.
Воспользуйтесь поиском по сайту: ©2015 - 2025 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|