Я пытаюсь реализовать нейронную сеть с помощью RELU.
слой ввода → 1 скрытый слой → relu → уровень вывода → слой softmax
Выше - архитектура моей нейронной сети. Я смущен насчет обратного распространения этого релу. Для производной от RELU, если x <= 0, выход равен 0. если x > 0, выход равен 1. Итак, когда вы вычисляете градиент, означает ли это, что я убиваю градиент приличным, если x <= 0?
Может кто-нибудь объяснить шаг за шагом обратную прокладку моей архитектуры нейронной сети?