Слава Агеевец: цитата из книги Грокаем глубокое обучение с подкреплением. Я провел оценку политики...

.lazyload-placeholder { display: none; }

Слава Агеевеццитирует3 дня назад

Я провел оценку политики «осторожно+» и затем попробовал ее улучшить. Q-функции «осторожно» и «осторожно+» отличаются, но жадные политики в рамках этих функций идентичны. Проще говоря, на этот раз улучшения не произошло.

Отсутствие улучшения объясняется тем, что «осторожно+» — оптимальная политика в среде ЗО (когда гамма равна 0,99). Политика «осторожно» изначально была довольно хороша, поэтому нам понадобилось всего одно улучшение.

.lazyload-placeholder { display: none; }

Мигель Моралес

Грокаем глубокое обучение с подкреплением

1.6K
223
8

Нравится
Комментировать
Поделиться
Vkontakte
Пожаловаться

Войти или зарегистрироваться, чтобы комментировать