Я не понимаю, почему функция dropout работает в тензорном потоке. В блоге CS231n говорится, что "dropout is implemented by only keeping a neuron active with some probability p (a hyperparameter), or setting it to zero otherwise."
Также вы можете видеть это на картинке (взято с того же сайта)
Из сайта тензорного потока With probability keep_prob, outputs the input element scaled up by 1 / keep_prob, otherwise outputs 0.
Теперь, почему элемент ввода расширяется на 1/keep_prob
? Почему бы не сохранить элемент ввода как есть с вероятностью и не масштабировать его с помощью 1/keep_prob
?