Я знаю основы фидерных нейронных сетей и как их обучать с использованием алгоритма backpropagation, но я ищу алгоритм, который я могу использовать для обучения онлайн-ANN с помощью обучения подкрепления.
Например, проблема поворота корзины - это то, что я хотел бы решить с помощью ANN. В этом случае я не знаю, что нужно сделать для управления маятником, я знаю только, насколько я близок к идеальной позиции. Мне нужно, чтобы ANN учился на основе вознаграждения и наказания. Таким образом, контролируемое обучение не является вариантом.
Другая ситуация - это что-то вроде = snake game, где отклики откладываются и ограничиваются целями, а не целями, а не наградами.
Я могу думать о некоторых алгоритмах для первой ситуации, таких как скалолазание или генетические алгоритмы, но я предполагаю, что они оба будут медленными. Они также могут быть применимы во втором сценарии, но невероятно медленны и не способствуют онлайн-обучению.
Мой вопрос прост: Есть ли простой алгоритм для обучения искусственной нейронной сети с обучением по усилению?. Меня в основном интересуют ситуации с вознаграждением в режиме реального времени, но если алгоритм для целевых ситуации доступны, даже лучше.