Я понимаю, что делает Gradient Descent. В основном он пытается двигаться к локальному оптимальному решению, медленно двигаясь вниз по кривой. Я пытаюсь понять, что представляет собой фактическое различие между градиентом плана спуска и методом Ньютона?
Из Википедии я прочитал эту короткую строку: "Метод Ньютона использует информацию кривизны для получения более прямого маршрута". Что это означает интуитивно?