Q Learning vs Temporal Difference vs Модифицированное обучение на основе моделей

Я участвую в курсе под названием "Интеллектуальные машины" в университете. Мы познакомились с тремя методами усиленного обучения, и с теми, кому нам дали интуицию, когда их использовать, и я цитирую:

Q-Learning - Лучшее, когда MDP не может быть решена.
Временное различие Обучение - лучше всего, когда MDP известен или может быть изучен, но не может быть решен.
Model-Based - лучше всего, когда MDP не может быть изучен.

Я попросил пример, чтобы использовать TDL над QL и т.д., и лектор не смог его найти.

Итак, есть ли хорошие примеры, чтобы выбрать один метод над другим? Спасибо.

Ответ 1

Временная разница подход к обучению прогнозированию количества, которое зависит от будущих значений данного сигнала, Его можно использовать для изучения как V-функции, так и Q-функции, тогда как Q-learning - это специфический TD-алгоритм, используемый для изучения Q-функции. Как указано в @StationaryTraveller, вам нужна Q-функция для выполнения действия (например, следуя политике эпсилон-жадность). Если у вас есть только V-функция, вы все равно можете получить Q-функцию, выполнив итерацию по всем возможным следующим состояниям и выбрав действие, которое приведет вас к состоянию с самым высоким значением V. Для примеров и более подробностей я рекомендую классическую книгу из Саттона и Барто (this является новее - в версии прогресса).

В без модели RL вы не изучаете функцию перехода состояния (модель) и полагаетесь только на образцы. Однако вам может быть интересно также изучить его, например, потому что вы не можете собрать много образцов и хотите создать некоторые виртуальные. В этом случае мы говорим о на основе модели RL. Модельный RL довольно распространен в робототехнике, где вы не можете выполнять много реальных симуляций или робот будет ломаться. Это - хороший обзор со многими примерами (но он говорит только о алгоритмах поиска политик). В другом примере рассмотрим эту статью. Здесь авторы изучают - наряду с политикой - гауссовским процессом - аппроксимировать прямую модель робота, чтобы имитировать траектории и уменьшить число реальных взаимодействий робота.