ГлавноеАудиоКомиксыДетям
Максим С.
Максим С.цитирует2 месяца назад
Долгосрочную награду называют выгодой. Если известна выгода выполнения определенного действия в определенном состоянии, поиск оптимальной стратегии легко выполнить с помощью обучения с подкреплением. Например, чтобы решить, какое выполнить действие, выбирается действие с максимальной выгодой. Самое сложное, как можно догадаться, состоит в раскрытии значений этой выгоды.
Машинное обучение и TensorFlow
Машинное обучение и TensorFlow
·
Нишант Шакла
Машинное обучение и TensorFlow
Нишант Шаклаи др.
1.6K

Войти или зарегистрироваться чтобы комментировать