давайте поиграем в Ежа Соника!

1656572777 davajte poigraem v ezha sonika

Томас Симонини

1*aRLyiDd3jEtCSHctP58Dvw

С начала этого курса мы изучали два разных метода обучения с подкреплением:

  • Методы на основе ценностей (Q-learning, Deep Q-learning): где мы изучаем значение функции которая отобразит каждую пару действий состояния на значение. Благодаря этим методам мы находим лучшее действие для каждого состояния – действие с наибольшей ценностью. Это хорошо работает, когда у вас есть конечный набор действий.
  • Методы на основе политики (Разделять с помощью градиентов политики): где мы непосредственно оптимизируем политику без использования функции значения. Это полезно, когда пространство действий является непрерывным или стохастическим. Основная проблема состоит в том, чтобы найти хорошую оценочную функцию, чтобы вычислить, насколько хороша политика. мы использовать общие вознаграждения эпизода.

Но оба эти способа имеют большие недостатки. Вот почему сегодня мы изучим новый тип метода обучения с подкреплением, который мы можем назвать «гибридным методом»: Актер Критик. Мы будем использовать две нейронные сети:

  • Измеряющий критик, насколько хорошо предприняты действия (на основе ценностей)
  • Актер, контролирующий поведение нашего агента (на основе политики)

Овладение этой архитектурой важно для понимания современных алгоритмов, таких как Проксимальная оптимизация политики (он же PPO). PPO основан на Advantage Actor Critic.

И вы введете агента Advantage Actor Critic (A2C), который научится играть в Ежа Соника!

1*F00fSSixgAp2CbzzI0_v7A
Фрагмент нашего агента, играющего в Сонике после 10 часов обучения на GPU.

Поиск лучшей модели обучения

Проблема с градиентами политики

Метод Policy Gradient имеет большую проблему. Мы находимся в ситуации Монте-Карло, ждем до конца эпизода, чтобы рассчитать вознаграждение. Мы можем заключить, что если мы имеем высокое вознаграждение (R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *