Я изучаю сверточные нейронные сети. Я смущен некоторыми слоями в CNN.
Относительно ReLu... Я просто знаю, что это сумма бесконечной логистической функции, но ReLu не подключается к каким-либо верхним уровням. Зачем нам нужен ReLu и как он работает?
Отказ от выпадения... Как работает отсева? Я слушал видео-разговор от Г. Хинтона. Он сказал, что есть стратегия, которая просто игнорирует половину узлов, случайным образом, при тренировке весов и уменьшает вес при прогнозировании. Он говорит, что он был вдохновлен случайными лесами и работает точно так же, как вычисление геометрического среднего этих случайно обученных моделей.
Является ли эта стратегия такой же, как и выпад?
Может кто-нибудь помочь мне решить эту проблему?