Подтвердить что ты не робот

В чем разница между Gradient Descent и Newton Gradient Descent?

Я понимаю, что делает Gradient Descent. В основном он пытается двигаться к локальному оптимальному решению, медленно двигаясь вниз по кривой. Я пытаюсь понять, что представляет собой фактическое различие между градиентом плана спуска и методом Ньютона?

Из Википедии я прочитал эту короткую строку: "Метод Ньютона использует информацию кривизны для получения более прямого маршрута". Что это означает интуитивно?

4b9b3361

Ответ 1

При локальном минимуме (или максимуме) x производная целевой функции f обращается в нуль: f'(x) = 0 (при условии достаточной гладкости f).

Градиентный спуск пытается найти такой минимум x, используя информацию из первой производной от f: он просто следует за крутым спусками из текущей точки. Это похоже на то, чтобы катить мяч по графику f до тех пор, пока он не остановится (пренебрегая инерцией).

Метод Ньютона пытается найти точку x, удовлетворяющую f'(x) = 0, аппроксимируя f' линейной функцией g, а затем решив корень этой функции явно (это называется методом корневого поиска Ньютона). Корень g не обязательно является корнем f', но во многих случаях это хорошее предположение (Статья Википедии о методе Ньютона для поиска корней содержит дополнительную информацию о критериях конвергенции). При приближении к f' метод Ньютона использует f'' (кривизна f). Это означает, что он имеет более высокие требования к гладкости f, но это также означает, что (с помощью большей информации) он часто сходится быстрее.

Ответ 2

Проще говоря, градиентный спуск вы просто делаете небольшой шаг к тому, где вы думаете, что ноль, а затем пересчитывается; Ньютон, вы идете полностью туда.