exponenta event banner

Ограничения и предостережения

Обычно вы используете обучение Levenberg-Marquardt для сетей малого и среднего размера, если у вас достаточно доступной памяти. Если память является проблемой, то существует множество других доступных быстрых алгоритмов. Для больших сетей вы, вероятно, захотите использовать trainscg или trainrp.

Многослойные сети способны выполнять практически любые линейные или нелинейные вычисления, и они могут произвольно аппроксимировать любую разумную функцию. Однако, хотя обучаемая сеть теоретически может быть способна работать правильно, обратное распространение и его вариации не всегда могут найти решение. Обсуждение сходимости к локальным минимальным точкам см. на стр. 12-8 документа [HDB96].

Поверхность ошибки нелинейной сети более сложна, чем поверхность ошибки линейной сети. Чтобы понять эту сложность, см. рисунки на страницах 12-5-12-7 [HDB96], на которых показаны три различные поверхности ошибок для многослойной сети. Проблема заключается в том, что нелинейные передаточные функции в многослойных сетях вводят множество локальных минимумов в поверхность ошибки. Поскольку градиентный спуск выполняется на поверхности ошибки, в зависимости от начальных условий запуска, сетевое решение может оказаться в ловушке в одном из этих локальных минимумов. Установление локального минимума может быть хорошим или плохим в зависимости от того, насколько локальный минимум близок к глобальному минимуму и насколько низкая ошибка требуется. В любом случае, следует предупредить, что, хотя многослойная сеть обратного распространения с достаточным количеством нейронов может реализовать практически любую функцию, обратное распространение не всегда находит правильные веса для оптимального решения. Возможно, потребуется повторно инициализировать сеть и переобучиться несколько раз, чтобы гарантировать лучшее решение.

Сети также чувствительны к количеству нейронов в их скрытых слоях. Слишком мало нейронов может привести к недоукомплектованию. Слишком много нейронов может способствовать переоборудованию, в котором все тренировочные точки хорошо подогнаны, но кривая подгонки волнисто колеблется между этими точками. Способы решения различных из этих проблем обсуждаются в документе «Улучшение неглубокого обобщения нейронных сетей и предотвращение переоснащения». Эта тема также обсуждается на стр. 11-21 документа [HDB96].

Дополнительные сведения о рабочем процессе с многослойными сетями см. в разделе Многоуровневые неглубокие нейронные сети и обучение обратному распространению.