Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.
Чтобы найти оптимальную линию разграничения, нужно сначала найти периферийные элементы данных, которые находятся ближе всего к противоположной группе. Оптимальная граница проводится посередине между такими периферийными элементами данных в обеих группах (рис. 3). Поскольку эти элементы данных помогают обнаружить оптимальную линию разграничения, их называют опорными векторами.
Градиентный бустинг. Метод обучения с учителем, при котором строится множество деревьев решений путем использования различных комбинаций бинарных вопросов для каждой ветви. Бинарные вопросы выбираются стратегически (а не случайно, как при использовании случайных лесов), в результате чего прогностическая точность каждого дерева увеличивается. После этого предсказания отдельных деревьев комбинируются, при этом прогнозы новых деревьев получают больший вес, и процесс повторяется до получения итоговых результатов.