Хорошие реализации обучения усилению?

Для проекта ai-class мне нужно реализовать алгоритм обучения подкрепления, который превосходит простую игру тетриса. Игра написана на Java, и у нас есть исходный код. Я знаю основы теории обучения подкреплениям, но мне было интересно, есть ли у кого-либо в сообществе SO опыт работы с подобными вещами.

Какими будут ваши рекомендуемые чтения для внедрения усиленного обучения в тетрисовой игре?
Есть ли хорошие проекты с открытым исходным кодом, которые выполняют похожие вещи, которые стоит проверить?

Изменить: чем конкретнее, тем лучше, но общие ресурсы по теме приветствуются.

Последующие действия:

Думал, было бы неплохо, если бы я опубликовал последующий отчет.

Здесь решение (код и запись) у меня получилось для будущих студентов:).

Paper/ Код

Ответ 1

Взгляните на RL-competition. Одной из проблемных областей является игра тетриса. В прошлом году была проблема с тетрисом. Heres 52-страничный окончательный отчет от этого пятого финалиста пятого места, в котором подробно описывается, как работал агент.

Ответ 2

книга Heaton Research достаточно хорошо объясняет понятия нейронной сети (с кодом). Глава 4 посвящена компьютерному обучению и различным методам обучения для ваших сетей. Для вас есть загружаемая библиотека и примеры приложений.

Ответ 3

Вот хорошая книга на эту тему:

Машинное обучение и интеллектуальный анализ данных: введение в принципы и алгоритмы
Игорь Кононенко, Матяз Кукар (июнь 2007 г.)

Также взгляните на эти проекты с открытым исходным кодом:

Ответ 4

TD-Gammon, gnubackgammon или любой другой подобный проект были огромными успехами в играх.

Книга Саттона и Барто "Укрепление обучения: введение" также содержит некоторые другие Примеры из практики.

Ответ 5

Это не относится к усиленному обучению, но у Стэнфорда есть отличная серия лекций по машинное обучение на Youtube и iTunes.

Ссылка на первую лекцию, которая занимает около 30 минут, чтобы погрузиться в контент.

Ответ 6

Burlap - это недавняя библиотека Java, которая обеспечивает реализацию многих общих алгоритмов обучения подкреплению, а также несколько сред и полезных инструментов.

Ответ 7

Этот вопрос действительно старый, но для тех, кто читает его в 2018 году, я настоятельно рекомендую вам использовать OpenAI Baselines, если вы заинтересованы в надежных ссылках на существующие алгоритмы RL. Эти алгоритмы реализованы группой сотрудников в OpenAI, которые действительно знают это, и были тщательно отлажены и отлажены.

Честно говоря, они вам не нужны для тетриса, но в настоящее время я подозреваю, что домашние вопросы могут включать более сложные среды.

https://github.com/openai/baselines

Ответ 8

Я бы предложил изучить RL4J, основанный на Java. Я использовал это, и я был поражен, как все работает гладко, и вы можете изучать даже сети LSTM в алгоритме обучения подкрепления с алгоритмом Actor Critic (называемым A3C)

Вот ссылка: https://github.com/deeplearning4j/dl4j-examples/blob/master/rl4j-examples/

Ответ 9

Я заметил, что этот вопрос довольно устарел и что мой регулярно обновляемый репозиторий для всех основных сред RL и фреймворков/наборов алгоритмов отлично ответил бы на это в современную эпоху.

https://github.com/TheMTank/RL-code-resources