Многослойная архитектура неглубокой нейронной сети

В этом разделе представлена часть типового многослойного рабочего процесса мелкослойной сети. Для получения дополнительной информации и других шагов см. Multilayer Shallow Neural Networks and Backpropagation Training.

Модель нейрона (logsig, tansig, purelin)

Элементарный нейрон с R входами показан ниже. Каждый вход взвешивается соответствующим w. Сумма взвешенных входов и смещения формирует вход в f передаточной функции. Нейроны могут использовать любую дифференцируемую передаточную функцию f, чтобы сгенерировать их выход.

Многослойные сети часто используют логарифмическую передаточную функцию logsig.

Функция logsig генерирует выходы между 0 и 1, когда вход нейрона переходит от отрицательной к положительной бесконечности.

В качестве альтернативы многослойные сети могут использовать передаточную функцию тан-сигмоида tansig.

Сигмоидные выходные нейроны часто используются для задач распознавания шаблонов, в то время как линейные выходные нейроны используются для задач подгонки функций. Линейная передаточная функция purelin показан ниже.

Три передаточные функции, описанные здесь, являются наиболее часто используемыми передаточными функциями для многослойных сетей, но при необходимости могут быть созданы и использованы другие дифференцируемые передаточные функции.

Нейронная сеть с feedforward

Однослойная сеть S logsig нейроны, имеющие R входов, показаны ниже полностью слева и со схемой слоя справа.

Сети прямого распространения часто имеют один или несколько скрытых слоев сигмоидных нейронов с последующим выходом слоем линейных нейронов. Множественные слои нейронов с нелинейными передаточными функциями позволяют сети изучать нелинейные отношения между входным и выходным векторами. Линейный выходной слой чаще всего используется для задач подбора кривой функций (или нелинейной регрессии).

С другой стороны, если вы хотите ограничить выходы сети (такие как между 0 и 1), то выходной слой должен использовать передаточную функцию сигмоида (такую как logsig). Это случай, когда сеть используется для задач распознавания шаблонов (в которых решение принимается сетью).

Для многослойных сетей номер слоя определяет верхний индекс на матрице веса. Соответствующее обозначение используется в двухслойном tansig/purelin сеть, показанная далее.

Эта сеть может использоваться как общая функциональная аппроксимация. Он может аппроксимировать любую функцию с конечным числом разрывов произвольно хорошо, учитывая достаточное количество нейронов в скрытом слое.

Теперь, когда архитектура многослойной сети была определена, процесс проекта описан в следующих разделах.