traingda

Градиентный спуск с адаптивной обратной связью скорости обучения

Синтаксис

net.trainFcn = 'traingda'
[net,tr] = train(net,...)

Описание

traingda сетевая учебная функция, которая обновляет вес и значения смещения согласно градиентному спуску с адаптивной скоростью обучения.

net.trainFcn = 'traingda' устанавливает сеть trainFcn свойство.

[net,tr] = train(net,...) обучает сеть с traingda.

Обучение происходит согласно traingda учебные параметры, показанные здесь с их значениями по умолчанию:

net.trainParam.epochs1000

Максимальное количество эпох, чтобы обучаться

net.trainParam.goal0

Цель производительности

net.trainParam.lr0.01

Скорость обучения

net.trainParam.lr_inc1.05

Отношение, чтобы увеличить скорость обучения

net.trainParam.lr_dec0.7

Отношение, чтобы уменьшить скорость обучения

net.trainParam.max_fail6

Максимальные отказы валидации

net.trainParam.max_perf_inc1.04

Увеличение максимальной производительности

net.trainParam.min_grad1e-5

Минимальный градиент производительности

net.trainParam.show25

Эпохи между отображениями (NaN ни для каких отображений)

net.trainParam.showCommandLinefalse

Сгенерируйте командную строку выход

net.trainParam.showWindowtrue

Покажите учебный графический интерфейс пользователя

net.trainParam.timeinf

Максимальное время, чтобы обучаться в секундах

Сетевое использование

Можно создать стандартную сеть, которая использует traingda с feedforwardnet или cascadeforwardnet. Подготовить пользовательскую сеть, которая будет обучена с traingda,

  1. Установите net.trainFcn к 'traingda'. Это устанавливает net.trainParam к traingdaпараметры по умолчанию.

  2. Установите net.trainParam свойства к требуемым значениям.

В любом случае, вызывая train с получившейся сетью обучает сеть с traingda.

Смотрите help feedforwardnet и help cascadeforwardnet для примеров.

Больше о

свернуть все

Градиентный спуск с адаптивной обратной связью скорости обучения

Со стандартным наискорейшим спуском скорость обучения считается постоянная в течение обучения. Производительность алгоритма очень чувствительна к соответствующей установке скорости обучения. Если скорость обучения установлена слишком высоко, алгоритм может колебаться и стать нестабильным. Если скорость обучения слишком мала, алгоритм занимает слишком много времени сходиться. Это не практично, чтобы определить оптимальную установку для скорости обучения перед обучением, и, на самом деле, оптимальными изменениями скорости обучения во время учебного процесса, когда алгоритм преодолевает поверхность производительности.

Можно улучшать производительность алгоритма наискорейшего спуска, если вы позволяете скорости обучения изменяться во время учебного процесса. Адаптивная скорость обучения пытается сохранить размер шага изучения как можно больше при сохранении стабильности изучения. Скорость обучения сделана быстро реагирующей к сложности локальной ошибочной поверхности.

Адаптивная скорость обучения требует некоторых изменений в методе обучения, используемом traingd. Во-первых, начальный сетевой выход и ошибка вычисляются. В каждую эпоху новые веса и смещения вычисляются с помощью текущей скорости обучения. Новые выходные параметры и ошибки затем вычисляются.

Как с импульсом, если новая ошибка превышает старую ошибку больше, чем предопределенное отношение, max_perf_inc (обычно 1.04), новые веса и смещения отбрасываются. Кроме того, скорость обучения уменьшена (обычно путем умножения lr_dec = 0.7). В противном случае новые веса, и т.д., сохранены. Если новая ошибка меньше старой ошибки, скорость обучения увеличена (обычно путем умножения lr_inc = 1.05).

Эта процедура увеличивает скорость обучения, но только до такой степени, что сеть может учиться без больших ошибочных увеличений. Таким образом почти оптимальная скорость обучения получена для локального ландшафта. Когда большая скорость обучения могла привести к устойчивому изучению, скорость обучения увеличена. Когда скорость обучения слишком высока, чтобы гарантировать уменьшение по ошибке, она уменьшена до устойчивых резюме изучения.

Попробуйте демонстрацию Проекта Нейронной сети nnd12vl [HDB96] для рисунка производительности переменного алгоритма скорости обучения.

Обучение обратной связи с адаптивной скоростью обучения реализовано с функциональным traingda, который называется точно так же, как traingd, за исключением дополнительных учебных параметров max_perf_inc, lr_dec, и lr_inc. Вот то, как это называется, чтобы обучить предыдущую сеть 2D слоя:

p = [-1 -1 2 2; 0 5 0 5];
t = [-1 -1 1 1];
net = feedforwardnet(3,'traingda');
net.trainParam.lr = 0.05;
net.trainParam.lr_inc = 1.05;
net = train(net,p,t);
y = net(p)

Алгоритмы

traingda может обучить любую сеть пока ее вес, сетевой вход, и передаточные функции имеют производные функции.

Обратная связь используется, чтобы вычислить производные производительности dperf относительно веса и переменных X смещения. Каждая переменная настроена согласно градиентному спуску:

dX = lr*dperf/dX

В каждую эпоху, если снижения производительности к цели, то скорость обучения увеличена на факторный lr_inc. Если производительность увеличивается больше, чем факторный max_perf_inc, скорость обучения настроена факторным lr_dec и изменение, которое увеличило производительность, не внесено.

Обучение останавливается, когда любое из этих условий происходит:

  • Максимальное количество epochs (повторения) достигнуты.

  • Максимальная сумма time превышен.

  • Производительность минимизирована к goal.

  • Градиент производительности падает ниже min_grad.

  • Производительность валидации увеличила больше, чем max_fail времена с прошлого раза это уменьшилось (при использовании валидации).

Смотрите также

| | |

Представлено до R2006a