Важно отметить, что значения k здесь — это итерации ценностей, а не взаимодействие со средой. Речь идет не об эпизодах, которые завершил агент, а о процессе выбора действий и наблюдении за средой. Значения k нельзя назвать временными шагами. Это скорее этапы выполнения итеративного алгоритма оценки политик.