Учебник Г. Джеймса «An Introduction to Statistical Learning»6 детально знакомит с наиболее распространенными подходами к машинному обучению на уровне, доступном читателям без специальной подготовки в области математики и статистики.
Соответственно, тренировочные данные являются фундаментом машинного обучения. Качественные данные позволяют точно выявить тонкие нюансы и корреляции и построить на их основе высокоточную прогнозирующую систему. В то же время плохое качество обучающей выборки может свести на нет работу даже лучших ML-алгоритмов
Оценить вероятность ошибки в общем случае поможет более сложная методика, которая называется скользящим контролем, или перекрестной проверкой (CV — cross-validation). Она позволяет строго оценить на обучающей выборке точность работы с новыми данными. Существуют два способа скользящего контроля: метод отложенных данных и контроль по k-блокам.