Оптимальное эпсилон (ε-жадное) значение

ε-жадная политика

Я знаю, что алгоритм Q-обучения должен стараться балансировать между разведкой и эксплуатацией. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения разведки/эксплуатации.

Оптимальное значение эпсилона

В моей реализации используется ε-жадная политика, но я не понимаю, когда дело доходит до определения значения epsilon. Должен ли epsilon быть ограниченным числом раз, когда алгоритм посетил данную пару (состояние, действие) или должен быть ограничен количеством выполненных итераций?

Мои предложения:

Понизьте значение эпсилона за каждый раз, когда была встречена пара (состояние, действие).
Опустите значение epsilon после выполнения полной итерации.
Опустите значение epsilon для каждого раза, когда мы сталкиваемся с состоянием s.

Очень ценно!

Ответ 1

Хотя во многих простых случаях εk сохраняется как фиксированное число в диапазоне 0 и 1, вы должны знать, что: Обычно исследование ослабевает с течением времени, так что политика, используемая асимптотически, становится жадной и, следовательно, (как Qk → Q *) оптимальной. Это может быть достигнуто путем приближения εk к 0 при возрастании k. Например, график ε-грейдов расписания вида εk = 1/k уменьшается до 0 при k → ∞, но при этом удовлетворяет второму условию сходимости Q-обучения, т.е. Позволяя бесконечно много посещений всего действия государства пар (Singh et al., 2000).

Что я обычно делаю: установите начальную альфа = 1/k (рассмотрим начальные k = 1 или 2) после того, как вы пройдете испытание методом проб, а k увеличится, альфа уменьшится. он также гарантирует гарантированность конвергенции.

Ответ 2

Обычно разумно просто задавать ε положительной константе, если у вас нет веских оснований не делать этого.