Воронцов Константин рассказывает об обучении с подкреплением.
- Задача о многоруком бандите
- Простая постановка задачи
- Жадные и полужадные стратегии
- Адаптивные стратегии
- Общий случай: среда с состояниями
- Общая постановка задачи
- Метод временных разностей
- Методы TD(0), SARSA, Q-обучение
- Методы TD (ƛ), SARSA (ƛ), Q (ƛ)
- Метод VDBE
воронцов обучение с подкреплением слайды