В обучении подкрепления, в чем разница между итерацией политики и итерацией ценности?
Насколько я понимаю, в итерации ценности вы используете уравнение Беллмана для решения для оптимальной политики, тогда как в итерации политики вы произвольно выбираете политику π и находите вознаграждение этой политики.
Я сомневаюсь, что если вы выбираете случайную политику π в PI, как гарантируется оптимальная политика. Даже если мы выбираем несколько случайных политик.