Я заметил, что частое появление во время обучения составляет NAN
.
Часто это кажется введенным весами в слоях внутреннего продукта/полностью подключенного или свертки, раздувающихся.
Это происходит потому, что вычисляется градиент? Или это из-за инициализации веса (если да, то почему инициализация веса имеет этот эффект)? Или это может быть вызвано характером входных данных?
Всеобъемлющий вопрос здесь просто: Какова наиболее распространенная причина появления NAN во время обучения?. Во-вторых, какие методы борьбы с этим (и почему они работают)?