ε-жадная политика
Я знаю, что алгоритм Q-обучения должен стараться балансировать между разведкой и эксплуатацией. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения разведки/эксплуатации.
Оптимальное значение эпсилонаВ моей реализации используется ε-жадная политика, но я не понимаю, когда дело доходит до определения значения epsilon. Должен ли epsilon быть ограниченным числом раз, когда алгоритм посетил данную пару (состояние, действие) или должен быть ограничен количеством выполненных итераций?
Мои предложения:- Понизьте значение эпсилона за каждый раз, когда была встречена пара (состояние, действие).
- Опустите значение epsilon после выполнения полной итерации.
- Опустите значение epsilon для каждого раза, когда мы сталкиваемся с состоянием s.
Очень ценно!