В чем разница между итерацией значений и итерацией политики?

В обучении подкрепления, в чем разница между итерацией политики и итерацией ценности?

Насколько я понимаю, в итерации ценности вы используете уравнение Беллмана для решения для оптимальной политики, тогда как в итерации политики вы произвольно выбираете политику π и находите вознаграждение этой политики.

Я сомневаюсь, что если вы выбираете случайную политику π в PI, как гарантируется оптимальная политика. Даже если мы выбираем несколько случайных политик.

Ответ 1

Посмотрите на них бок о бок. Выделены ключевые части для сравнения. Цифры из книги Саттона и Барто: Укрепление обучения: введение.

Ключевые моменты:

Итерация политики включает в себя: оценка политики + улучшение политики, и два повторяются итеративно, пока политика не сходится.
Итерация значения включает в себя: поиск оптимальной функции значения + одно извлечение политики. Нет повторения этих двух, поскольку, когда функция значения является оптимальной, тогда политика из нее также должна быть оптимальной (т.е. Конвергентной).
Поиск функции оптимального значения также может рассматриваться как комбинация улучшения политики (из-за макс) и усеченной оценки политики (переназначение v_ (s) после всего лишь одного развертки всех состояний независимо от конвергенция).
Алгоритмы для оценки политики и нахождения оптимальной функции значения очень похожи, кроме максимальной операции (как выделено)
Аналогичным образом ключевой шаг в улучшении политики и извлечении политики идентичен, кроме первого включает проверку стабильности.

По моему опыту, итерация политики быстрее, чем итерация значения, поскольку политика сходится быстрее, чем функция значения. Я помню, это также описано в книге.

Я предполагаю, что путаница в основном исходила от всех этих несколько схожих терминов, которые также меня смутили.

Ответ 2

В алгоритмах политики итерации вы начинаете со случайной политики, затем находите функцию значения этой политики (шаг оценки политики), затем находите новую (улучшенную) политику, основанную на предыдущей функции значений, и так далее. В этом процессе гарантируется, что каждая политика будет строго улучшаться по сравнению с предыдущей (если она не будет оптимальной). Учитывая политику, ее функция значений может быть получена с помощью оператора Беллмана.

В значении итерации вы начинаете с функции случайного значения, а затем находите новую (улучшенную) функцию значения в итеративном процессе до достижения оптимальной функции значения. Обратите внимание, что вы можете легко получить оптимальную политику из функции оптимального значения. Этот процесс основан на операторе Беллмана оптимальности.

В некотором смысле оба алгоритма используют один и тот же принцип работы, и их можно рассматривать как два случая обобщенная итерация политики. Однако оптимальный оператор Беллмана содержит оператор max, который не является линейным и, следовательно, имеет разные особенности. Кроме того, можно использовать гибридные методы между чистой итерацией стоимости и чистой итерацией политики.