Выберите многоуровневую функцию обучения нейронной сети

Очень трудно знать, какой учебный алгоритм будет самым быстрым для данной проблемы. Это зависит от многих факторов, включая сложность проблемы, количество точек данных в наборе обучающих данных, количество весов и смещений в сети, ошибочной цели, и используется ли сеть для распознавания образов (дискриминантный анализ) или приближение функций (регрессия). Этот раздел сравнивает различные учебные алгоритмы. Сети Feedforward обучены на шести различных проблемах. Три из проблемного падения категории распознавания образов и этих трех других падают в категории приближения функций. Двумя из проблем являются простые “игрушечные” проблемы, в то время как другие четыре являются проблемами “реального мира”. Сети со множеством различной архитектуры и сложностей используются, и сети обучены ко множеству различных уровней точности.

В следующей таблице перечислены алгоритмы, которые тестируются, и акронимы раньше идентифицировали их.

Акроним

Алгоритм

Описание

LM

trainlm

Levenberg-Marquardt

BFG

trainbfg

Квазиньютон BFGS

RP

trainrp

Устойчивая обратная связь

SCG

trainscg

Масштабированный метод сопряженных градиентов

CGB

traincgb

Метод сопряженных градиентов с Перезапусками Powell/Beale

CGF

traincgf

Метод сопряженных градиентов Флетчера-Пауэлла

CGP

traincgp

Метод сопряженных градиентов Полака-Рибиера

OSS

trainoss

Один секанс шага

GDX

traingdx

Переменная обратная связь темпа обучения

В следующей таблице перечислены эти шесть эталонных тестовых задач и некоторые характеристики сетей, учебных процессов и используемых компьютеров.

Проблемный заголовок

Проблемный тип

Сетевая структура

Ошибочная цель

Компьютер

SIN

Приближение функций

1-5-10.002

Sparc 2 Sun

Четность

Распознавание образов

3-10-10-10.001

Sparc 2 Sun

Механизм

Приближение функций

2-30-20.005

Предприятие Sun 4000

РАК

Распознавание образов

9-5-5-20.012

Sparc 2 Sun

ХОЛЕСТЕРИН

Приближение функций

21-15-30.027

Sparc 20 Sun

ДИАБЕТ

Распознавание образов

8-15-15-20.05

Sparc 20 Sun

Набор данных SIN

Первый набор исходных данных является простой проблемой приближения функций. 1-5-1 сеть, с передаточными функциями tansig в скрытом слое и линейной передаточной функцией в выходном слое, используется, чтобы аппроксимировать один период синусоиды. Следующая таблица обобщает результаты обучения сеть с помощью девяти различных учебных алгоритмов. Каждая запись в таблице представляет 30 различных испытаний, где различные случайные начальные веса используются в каждом испытании. В каждом случае обучена сеть, пока квадратичная невязка не меньше чем 0,002. Самый быстрый алгоритм для этой проблемы является алгоритмом Levenberg-Marquardt. В среднем это более чем в четыре раза быстрее, чем следующий самый быстрый алгоритм. Это - тип проблемы, для которой алгоритм LM подходит лучше всего — проблема приближения функций, где сеть имеет меньше чем сто весов, и приближение должно быть очень точным.

Алгоритм

Среднее время (время)ОтношениеMin. \times Максимум время (времена)Станд. (s)

LM

1.14 1.00 0.65 1.830.38

BFG

5.22 4.58 3.17 14.38 2.08

RP

5.67 4.97 2.66 17.243.72

SCG

6.09 5.34 3.1823.643.81

CGB

6.61 5.80 2.9923.653.67

CGF

7.86 6.89 3.5731.234.76

CGP

8.24 7.23 4.0732.325.03

OSS

9.64 8.46 3.9759.639.79

GDX

27.69 24.29 17.21258.1543.65

Производительность различных алгоритмов может быть затронута точностью, требуемой приближения. Это показывают в следующей фигуре, которая строит среднеквадратичную погрешность по сравнению со временем выполнения (усредненный по 30 испытаниям) для нескольких представительных алгоритмов. Здесь вы видите, что ошибка в алгоритме LM уменьшается намного более быстро со временем, чем другие показанные алгоритмы.

Отношение между алгоритмами далее проиллюстрировано в следующей фигуре, которая строит время, требуемое сходиться по сравнению с целью сходимости среднеквадратичной погрешности. Здесь вы видите, что, когда ошибочная цель уменьшается, улучшение, обеспеченное алгоритмом LM, становится более явным. Некоторые алгоритмы выполняют лучше, когда ошибочная цель уменьшается (LM и BFG), и другие алгоритмы ухудшаются, когда ошибочная цель уменьшается (OSS и GDX).

Набор КОНТРОЛЬНЫХ ДАННЫХ

Вторая эталонная тестовая задача является простой проблемой распознавания образов — обнаруживают четность 3-битного номера. Если количество единиц во входном наборе нечетно, то сеть должна вывести 1; в противном случае это должно вывести-1. Сеть, используемая для этой проблемы, является 3-10-10-1 сетью с tansig нейронами в каждом слое. Следующая таблица обобщает результаты обучения этой сети с девятью различными алгоритмами. Каждая запись в таблице представляет 30 различных испытаний, где различные случайные начальные веса используются в каждом испытании. В каждом случае обучена сеть, пока квадратичная невязка не меньше чем 0,001. Самый быстрый алгоритм для этой проблемы является эластичным алгоритмом обратного распространения, несмотря на то, что алгоритмы метода сопряженных градиентов (в частности, масштабированный алгоритм метода сопряженных градиентов) почти как быстро. Заметьте, что алгоритм LM не выполняет хорошо на этой проблеме. В целом алгоритм LM не выполняет также на проблемах распознавания образов, как он делает на проблемах приближения функций. Алгоритм LM разработан для проблем наименьших квадратов, которые приблизительно линейны. Поскольку выходные нейроны в проблемах распознавания образов обычно насыщаются, вы не будете действовать в линейной области.

Алгоритм

Среднее время (время)ОтношениеMin. \times Максимум время (времена)Станд. (s)

RP

3.731.00 2.356.891.26

SCG

4.091.10 2.367.481.56

CGP

5.131.38 3.508.731.05

CGB

5.301.423.9111.591.35

CGF

6.621.77 3.9628.054.32

OSS

8.002.14 5.0614.411.92

LM

13.073.50 6.4823.784.96

BFG

19.685.28 14.1926.642.85

GDX

27.077.26 25.2128.520.86

Как с проблемами приближения функций, производительность различных алгоритмов может быть затронута точностью, требуемой сети. Это показывают в следующей фигуре, которая строит среднеквадратичную погрешность по сравнению со временем выполнения для некоторых типичных алгоритмов. Алгоритм LM сходится быстро после некоторой точки, но только после того, как другие алгоритмы уже сходились.

Отношение между алгоритмами далее проиллюстрировано в следующей фигуре, которая строит время, требуемое сходиться по сравнению с целью сходимости среднеквадратичной погрешности. Снова вы видите, что некоторые алгоритмы ухудшаются, когда ошибочная цель уменьшается (OSS и BFG).

Набор данных ENGINE

Третья эталонная тестовая задача является реалистическим приближением функций (или нелинейная регрессия) проблема. Данные получены из работы механизма. Входные параметры к сети являются скоростью вращения двигателя и уровнями заправки, и сетевые выходные параметры являются крутящим моментом и уровнями выбросов. Сеть, используемая для этой проблемы, является 2-30-2 сетями с tansig нейронами в скрытом слое и линейными нейронами в выходном слое. Следующая таблица обобщает результаты обучения этой сети с девятью различными алгоритмами. Каждая запись в таблице представляет 30 различных испытаний (10 испытаний за RP и GDX из-за ограничений времени), где различные случайные начальные веса используются в каждом испытании. В каждом случае обучена сеть, пока квадратичная невязка не меньше чем 0,005. Самый быстрый алгоритм для этой проблемы является алгоритмом LM, несмотря на то, что алгоритм квазиньютона BFGS и алгоритмы метода сопряженных градиентов (масштабированный алгоритм метода сопряженных градиентов в частности) почти как быстро. Несмотря на то, что это - проблема приближения функций, алгоритм LM не как ясно выше, как это было на наборе данных SIN. В этом случае количество весов и смещений в сети намного больше, чем та, используемая на проблеме SIN (152 по сравнению с 16), и преимущества уменьшения алгоритма LM как количество сетевых увеличений параметров.

Алгоритм

Среднее время (время)ОтношениеMin. \times Максимум время (времена)Станд. (s)

LM

18.45 1.00 12.01 30.034.27

BFG

27.12 1.47 16.42 47.365.95

SCG

36.02 1.95 19.39 52.457.78

CGF

37.93 2.06 18.89 50.346.12

CGB

39.93 2.16 23.33 55.427.50

CGP

44.30 2.40 24.99 71.559.89

OSS

48.71 2.64 23.51 80.9012.33

RP

65.91 3.57 31.83 134.3134.24

GDX

188.50 10.22 81.59 279.9066.67

Следующая фигура строит среднеквадратичную погрешность по сравнению со временем выполнения для некоторых типичных алгоритмов. Производительность алгоритма LM улучшается в зависимости от времени относительно других алгоритмов.

Отношение между алгоритмами далее проиллюстрировано в следующей фигуре, которая строит время, требуемое сходиться по сравнению с целью сходимости среднеквадратичной погрешности. Снова вы видите, что некоторые алгоритмы ухудшаются, когда ошибочная цель уменьшается (GDX и RP), в то время как алгоритм LM улучшается.

Набор данных CANCER

Четвертая эталонная тестовая задача является реалистическим распознаванием образов (или нелинейный дискриминантный анализ) проблема. Цель сети состоит в том, чтобы классифицировать опухоль или как мягкую или как злостную на основе описаний ячейки, собранных микроскопическим исследованием. Входные атрибуты включают толщину глыбы, однородность размера ячейки и формы ячейки, суммы крайней адгезии и частоты пустых ядер. Данные были получены из Больниц Висконсинского университета, Мадисон, от доктора Вильгельма Х. Вольберга. Сеть, используемая для этой проблемы, является 9-5-5-2 сетями с tansig нейронами во всех слоях. Следующая таблица обобщает результаты обучения этой сети с девятью различными алгоритмами. Каждая запись в таблице представляет 30 различных испытаний, где различные случайные начальные веса используются в каждом испытании. В каждом случае обучена сеть, пока квадратичная невязка не меньше чем 0,012. Нескольким выполнениям не удалось сходиться для некоторых алгоритмов, поэтому только лучшие 75% выполнений из каждого алгоритма использовались, чтобы получить статистику.

Алгоритмы метода сопряженных градиентов и устойчивая обратная связь, которую все обеспечивают быстрой сходимости и алгоритму LM, также довольно быстры. Как с набором контрольных данных, алгоритм LM не выполняет также на проблемах распознавания образов, как это делает на проблемах приближения функций.

Алгоритм

Среднее время (время)ОтношениеMin. \times Максимум время (времена)Станд. (s)

CGB

80.27 1.00 55.07102.31 13.17

RP

83.41 1.04 59.51109.39 13.44

SCG

86.58 1.08 41.21112.19 18.25

CGP

87.70 1.09 56.35116.37 18.03

CGF

110.05 1.37 63.33171.53 30.13

LM

110.33 1.37 58.94201.07 38.20

BFG

209.60 2.61 118.92318.18 58.44

GDX

313.22 3.90 166.48446.43 75.44

OSS

463.87 5.78 250.62599.99 97.35

Следующая фигура строит среднеквадратичную погрешность по сравнению со временем выполнения для некоторых типичных алгоритмов. Для этой проблемы нет такого же изменения в производительности как в предыдущих проблемах.

Отношение между алгоритмами далее проиллюстрировано в следующей фигуре, которая строит время, требуемое сходиться по сравнению с целью сходимости среднеквадратичной погрешности. Снова вы видите, что некоторые алгоритмы ухудшаются, когда ошибочная цель уменьшается (OSS и BFG), в то время как алгоритм LM улучшается. Это типично для алгоритма LM на любой проблеме, которую ее производительность улучшает относительно других алгоритмов, когда ошибочная цель уменьшается.

Набор данных CHOLESTEROL

Пятая эталонная тестовая задача является реалистическим приближением функций (или нелинейная регрессия) проблема. Цель сети состоит в том, чтобы предсказать уровни холестерина (ldl, hdl, и vldl) на основе измерений 21 спектрального компонента. Данные были получены от доктора Нила Перди, Отдела Химии, Университета штата Оклахома [PuLu92]. Сеть, используемая для этой проблемы, является 21-15-3 сетями с tansig нейронами в скрытых слоях и линейными нейронами в выходном слое. Следующая таблица обобщает результаты обучения этой сети с девятью различными алгоритмами. Каждая запись в таблице представляет 20 различных испытаний (10 испытаний за RP и GDX), где различные случайные начальные веса используются в каждом испытании. В каждом случае обучена сеть, пока квадратичная невязка не меньше чем 0,027.

Масштабированный алгоритм метода сопряженных градиентов имеет лучшую производительность на этой проблеме, несмотря на то, что все алгоритмы метода сопряженных градиентов выполняют хорошо. Алгоритм LM не выполняет также на этой проблеме приближения функций, как это сделало на других двух. Это вызвано тем, что количество весов и смещений в сети увеличилось снова (378 по сравнению с 152 по сравнению с 16). Как количество увеличений параметров, вычисление, требуемое в алгоритме LM, увеличивается геометрически.

Алгоритм

Среднее время (время)ОтношениеMin. \times Максимум время (времена)Станд. (s)

SCG

99.731.0083.10113.409.93

CGP

121.541.22101.76162.4916.34

CGB

124.061.2 107.64146.9014.62

CGF

136.041.36106.46167.2817.67

LM

261.502.62103.52398.45102.06

OSS

268.552.69197.84372.9956.79

BFG

550.925.52471.61676.3946.59

RP

1519.0015.23581.172256.10557.34

GDX

3169.5031.782514.904168.20610.52

Следующая фигура строит среднеквадратичную погрешность по сравнению со временем выполнения для некоторых типичных алгоритмов. Для этой проблемы вы видите, что алгоритм LM может управлять среднеквадратичной погрешностью к более низкому уровню, чем другие алгоритмы. SCG и алгоритмы RP обеспечивают самую быструю начальную сходимость.

Отношение между алгоритмами далее проиллюстрировано в следующей фигуре, которая строит время, требуемое сходиться по сравнению с целью сходимости среднеквадратичной погрешности. Вы видите, что LM и алгоритмы BFG улучшаются относительно других алгоритмов, когда ошибочная цель уменьшается.

Набор данных DIABETES

Шестая эталонная тестовая задача является проблемой распознавания образов. Цель сети состоит в том, чтобы решить, есть ли у человека диабет, на основе персональных данных (возраст, беременное число раз) и результаты медицинских обследований (например, кровяное давление, индекс массы тела, результат теста допуска глюкозы, и т.д.). Данные были получены из Калифорнийского университета, Ирвина, базы данных машинного обучения. Сеть, используемая для этой проблемы, является 8-15-15-2 сетями с tansig нейронами во всех слоях. Следующая таблица обобщает результаты обучения этой сети с девятью различными алгоритмами. Каждая запись в таблице представляет 10 различных испытаний, где различные случайные начальные веса используются в каждом испытании. В каждом случае обучена сеть, пока квадратичная невязка не меньше чем 0,05.

Алгоритмы метода сопряженных градиентов и устойчивая обратная связь все обеспечивают быструю сходимость. Результаты на этой проблеме сопоставимы с другими рассмотренными проблемами распознавания образов. Алгоритм RP работает хорошо над всеми проблемами распознавания образов. Это разумно, потому что тот алгоритм был разработан, чтобы преодолеть трудности, вызванные обучением с сигмоидальными функциями, которые имеют очень маленькие наклоны при работе далекий от центральной точки. Для проблем распознавания образов вы используете сигмоидальные передаточные функции в выходном слое, и вы хотите, чтобы сеть действовала в хвостах сигмоидальной функции.

Алгоритм

Среднее время (время)ОтношениеMin. \times Максимум время (времена)Станд. (s)

RP

323.901.00187.43576.90111.37

SCG

390.531.21267.99487.1775.07

CGB

394.671.22312.25558.2185.38

CGP

415.901.28320.62614.6294.77

OSS

784.002.42706.89936.5276.37

CGF

784.502.42629.421082.20144.63

LM

1028.103.17802.011269.50166.31

BFG

1821.005.621415.803254.50546.36

GDX

7687.0023.735169.2010350.002015.00

Следующая фигура строит среднеквадратичную погрешность по сравнению со временем выполнения для некоторых типичных алгоритмов. Как с другими проблемами, вы видите, что SCG и RP имеют быструю начальную сходимость, в то время как алгоритм LM может обеспечить меньшую конечную погрешность.

Отношение между алгоритмами далее проиллюстрировано в следующей фигуре, которая строит время, требуемое сходиться по сравнению с целью сходимости среднеквадратичной погрешности. В этом случае вы видите, что алгоритм Большого и доброго великана ухудшается, когда ошибочная цель уменьшается, в то время как алгоритм LM улучшается. Алгоритм RP является лучшим, кроме в самой маленькой ошибочной цели, где SCG лучше.

Сводные данные

Существует несколько характеристик алгоритма, которые могут быть выведены из описанных экспериментов. В целом, на проблемах приближения функций, для сетей, которые содержат до нескольких сотен весов, алгоритм Levenberg-Marquardt будет иметь самую быструю сходимость. Это преимущество особенно примечательно, если очень точное обучение требуется. Во многих случаях trainlm может получить более низкие среднеквадратичные погрешности, чем любой из других протестированных алгоритмов. Однако как количество весов в сетевых увеличениях, преимуществе уменьшений trainlm. Кроме того, производительность trainlm относительно плоха на проблемах распознавания образов. Требования устройства хранения данных trainlm больше, чем другие протестированные алгоритмы.

Функция trainrp является самым быстрым алгоритмом на проблемах распознавания образов. Однако это не выполняет хорошо на проблемах приближения функций. Его производительность также ухудшается, когда ошибочная цель уменьшается. Требования к памяти для этого алгоритма являются относительно небольшими по сравнению с другими рассмотренными алгоритмами.

Алгоритмы метода сопряженных градиентов, в конкретном trainscg, кажется, выполняют хорошо по большому разнообразию проблем, особенно для сетей с большим количеством весов. Алгоритм SCG почти с такой скоростью, как алгоритм LM на проблемах приближения функций (быстрее для больших сетей) и почти с такой скоростью, как trainrp на проблемах распознавания образов. Его производительность не ухудшается так быстро, как производительность trainrp делает, когда ошибка уменьшается. Алгоритмы метода сопряженных градиентов имеют относительно скромные требования к памяти.

Производительность trainbfg подобна тому из trainlm. Не требуется такого же количества устройства хранения данных как trainlm, но требуемое вычисление действительно увеличивается геометрически с размером сети, потому что эквивалент матричной инверсии должен быть вычислен в каждой итерации.

Переменный алгоритм темпа обучения traingdx обычно намного медленнее, чем другие методы и имеет о тех же требованиях устройства хранения данных как trainrp, но это может все еще быть полезно для некоторых проблем. Существуют определенные ситуации, в которых лучше сходиться более медленно. Например, при использовании ранней остановки у вас могут быть противоречивые результаты, если вы используете алгоритм, который сходится слишком быстро. Вы можете промахнуться по точке, в которой минимизирована ошибка на наборе валидации.

Для просмотра документации необходимо авторизоваться на сайте