![Грокаем глубокое обучение с подкреплением](https://api.bookmate.ru/assets/books-covers/6e/f7/a2XKZB8z-ipad.jpeg?image_hash=b76c65103e99e2bdfd6aef8882b0d83b)
Грокаем глубокое обучение с подкреплением
Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Цитаты246
представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
Жадная политика. Эта политика всегда выбирает действия, которые, как ожидается, должны приносить самую высокую выгоду в каждом состоянии. Важно понимать, что жадная она по отношению к функции ценности. Именно поэтому я использовал фразу «как ожидается». Суть в том, что, когда кто-то говорит «жадная политика», вы должны спросить: «Жадная относительно чего?» Например, жадная политика по отношению к случайной функции ценности — довольно плохая политика.
Эпсилон-жадная политика. Эта политика зачастую выбирает действия с самой высокой ожидаемой выгодой в каждом состоянии. Как и вышеописанная политика, жадная она по отношению к определенной функции ценности. Всегда обращайте внимание на то, о какой именно функции ценности идет речь.
Оптимальная политика. Эта политика всегда выбирает действия, фактически приносящие самую высокую ожидаемую выгоду в каждом состоянии. Если жадная политика может быть оптимальной, то оптимальная политика всегда будет жадной. Надеюсь, вы сразу же переспросили: «Жадная относительно чего?» Хорошая работа! Оптимальная политика жадная по отношению к уникальной, оптимальной функции ценности.
Эпсилон-жадная политика. Эта политика зачастую выбирает действия с самой высокой ожидаемой выгодой в каждом состоянии. Как и вышеописанная политика, жадная она по отношению к определенной функции ценности. Всегда обращайте внимание на то, о какой именно функции ценности идет речь.
Оптимальная политика. Эта политика всегда выбирает действия, фактически приносящие самую высокую ожидаемую выгоду в каждом состоянии. Если жадная политика может быть оптимальной, то оптимальная политика всегда будет жадной. Надеюсь, вы сразу же переспросили: «Жадная относительно чего?» Хорошая работа! Оптимальная политика жадная по отношению к уникальной, оптимальной функции ценности.
На полке9
![Питер](https://api.bookmate.ru/assets/bookshelves-covers/21/c9/nqVjpB1T-thumb.jpeg?image_hash=9e964c7cbfcde1c5421bbccac5ce43cf)
1 785 книг
678
![Айтишная полка](https://api.bookmate.ru/assets/bookshelves-covers/a1/81/OJzd0Up8-thumb.jpeg?image_hash=2fcf571a2f41aa1866b6ca49f0a62150)
267 книг
468
![Машинное обучение, DS](https://api.bookmate.ru/assets/bookshelves-covers/88/04/oiuV18Q8-thumb.jpeg?image_hash=ccf3b681925c339ab3d715473b20d9e5)
42 книги
34
![IT](https://api.bookmate.ru/assets/bookshelves-covers/ff/23/mCh4cZO7-thumb.jpeg?image_hash=1226022d6f0515911ff51a4baf7e727b)
36 книг
16
![Программирование](https://api.bookmate.ru/assets/bookshelves-covers/96/da/CxDhgEib-thumb.jpeg?image_hash=862606cf12d01e0bc6e2f3f7f1a02002)
100 книг
15