ReLu и Dropout в CNN - программирование

Я изучаю сверточные нейронные сети. Я смущен некоторыми слоями в CNN.

Относительно ReLu... Я просто знаю, что это сумма бесконечной логистической функции, но ReLu не подключается к каким-либо верхним уровням. Зачем нам нужен ReLu и как он работает?

Отказ от выпадения... Как работает отсева? Я слушал видео-разговор от Г. Хинтона. Он сказал, что есть стратегия, которая просто игнорирует половину узлов, случайным образом, при тренировке весов и уменьшает вес при прогнозировании. Он говорит, что он был вдохновлен случайными лесами и работает точно так же, как вычисление геометрического среднего этих случайно обученных моделей.

Является ли эта стратегия такой же, как и выпад?

Может кто-нибудь помочь мне решить эту проблему?

Ответ 1

РЕЛУ: Функция выпрямителя является функцией активации f (x) = Max (0, x), которая может использоваться нейронами точно так же, как любая другая функция активации, a node с использованием функции активации выпрямителя называется ReLu node. Основная причина, по которой он используется, заключается в том, насколько эффективно он может быть вычислен по сравнению с более обычными функциями активации, такими как сигмоидный и гиперболический тангенс, без существенной разницы в точности обобщения. Функция активации выпрямителя используется вместо функции линейной активации, чтобы добавить нелинейность в сеть, иначе сеть могла бы только вычислить линейную функцию.

Отключения: Да, описанная техника такая же, как и отсева. Причина, по которой случайное игнорирование узлов является полезной, заключается в том, что она препятствует появлению межзависимых связей между узлами (узлы I.e. не изучают функции, которые полагаются на входные значения из другого node), что позволяет сети лучше узнать более надежные отношения. Внедрение исключений имеет тот же эффект, что и средний показатель от комитета сетей, однако стоимость значительно меньше и времени, и времени хранения.