Я пытаюсь построить нейронную сеть с нуля. Во всей литературе AI есть консенсус в отношении того, что весы должны быть инициализированы случайными числами, чтобы сеть быстрее сходилась.
Но почему исходные веса нейронных сетей инициализируются как случайные числа?
Я где-то читал, что это делается для "разрыва симметрии", и это ускоряет работу нейронной сети. Как нарушение симметрии заставляет его быстрее учиться?
Не будет ли инициализация весов 0 лучше? Таким образом, весы смогут быстрее найти свои значения (положительные или отрицательные)?
Есть ли какая-то другая основополагающая философия для рандомизации весов, не надеясь, что они будут близки к их оптимальным значениям при инициализации?