Я участвую в курсе под названием "Интеллектуальные машины" в университете. Мы познакомились с тремя методами усиленного обучения, и с теми, кому нам дали интуицию, когда их использовать, и я цитирую:
- Q-Learning - Лучшее, когда MDP не может быть решена.
- Временное различие Обучение - лучше всего, когда MDP известен или может быть изучен, но не может быть решен.
- Model-Based - лучше всего, когда MDP не может быть изучен.
Я попросил пример, чтобы использовать TDL над QL и т.д., и лектор не смог его найти.
Итак, есть ли хорошие примеры, чтобы выбрать один метод над другим? Спасибо.