представляю время, когда мы будем для роботов тем же, чем сейчас собаки являются для людей, и болею за машины.
Она лежит в основе так называемой временной задачи присваивания коэффициентов доверия — в определении того, какое состояние и/или действие привело к получению вознаграждения. Когда у задачи есть временная составляющая, а у действия — отложенные последствия, наградам сложно присвоить коэффициенты доверия.
Важно отметить, что значения k здесь — это итерации ценностей, а не взаимодействие со средой. Речь идет не об эпизодах, которые завершил агент, а о процессе выбора действий и наблюдении за средой. Значения k нельзя назвать временными шагами. Это скорее этапы выполнения итеративного алгоритма оценки политик.