Данила С.
Данила С.цитирует12 дней назад
рии. Выборка на временном шаге t + 1 зависит от выборки на временном шаге t. Они коррелируют, и с этим ничего не поделаешь: это естественно для динамического обучения.

Но выборки еще и распределены неодинаково, так как зависят от политики, генерирующей действия. Как мы знаем, она со временем меняется, и нам это играет на руку, ведь мы хотим, чтобы политика улучшилась. Но вместе с ней будет улучшаться и распределение выборок (посещенных пар «состояние — действие»).
  • Грокаем глубокое обучение с подкреплением, Мигель Моралес
  • Войти или зарегистрироваться, чтобы комментировать
    Поддержка
    0
    Не удалось загрузить чат
    Попробовать ещё раз
    К сожалению доступов к cookie нет.
    Подтвердите переход на новую страницу