Грокаем глубокое обучение с подкреплением

Читать отрывокОтрывок
Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Уже прочитали? Что скажете?
представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
1 Нравится
Комментировать
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
1 Нравится
Комментировать
Жадная политика. Эта политика всегда выбирает действия, которые, как ожидается, должны приносить самую высокую выгоду в каждом состоянии. Важно понимать, что жадная она по отношению к функции ценности. Именно поэтому я использовал фразу «как ожидается». Суть в том, что, когда кто-то говорит «жадная политика», вы должны спросить: «Жадная относительно чего?» Например, жадная политика по отношению к случайной функции ценности — довольно плохая политика.

Эпсилон-жадная политика. Эта политика зачастую выбирает действия с самой высокой ожидаемой выгодой в каждом состоянии. Как и вышеописанная политика, жадная она по отношению к определенной функции ценности. Всегда обращайте внимание на то, о какой именно функции ценности идет речь.

Оптимальная политика. Эта политика всегда выбирает действия, фактически приносящие самую высокую ожидаемую выгоду в каждом состоянии. Если жадная политика может быть оптимальной, то оптимальная политика всегда будет жадной. Надеюсь, вы сразу же переспросили: «Жадная относительно чего?» Хорошая работа! Оптимальная политика жадная по отношению к уникальной, оптимальной функции ценности.
Комментировать
Питер
Издательский дом «Питер»
Издательский дом «Питер»
1 785 книг
678
Айтишная полка
undlake
undlake
267 книг
468
Машинное обучение, DS
Гудвин устал
Гудвин устал
42 книги
34
IT
Роберт Л.
Роберт Л.
36 книг
16
Программирование
Алексей Ермаков
Алексей Ермаков
100 книг
15