Я только что начал программировать для нейронных сетей. В настоящее время я работаю над пониманием того, как работает нейронная сеть Backpropogation (BP). Хотя алгоритм обучения в сетях BP довольно прост, мне не удалось найти текст о том, почему работает алгоритм. Более конкретно, я ищу некоторые математические аргументы, чтобы оправдывать использование сигмоидных функций в нейронных сетях, и что заставляет ими имитировать практически любое распределение данных, которое они бросают.
Спасибо!