Я провел оценку политики «осторожно+» и затем попробовал ее улучшить. Q-функции «осторожно» и «осторожно+» отличаются, но жадные политики в рамках этих функций идентичны. Проще говоря, на этот раз улучшения не произошло.
Отсутствие улучшения объясняется тем, что «осторожно+» — оптимальная политика в среде ЗО (когда гамма равна 0,99). Политика «осторожно» изначально была довольно хороша, поэтому нам понадобилось всего одно улучшение.