Более того, исключение элементов данных может привести к искаженным результатам в отношении отдельных групп. Например, коты могут менее охотно, чем другие, раскрывать информацию о количестве приобретаемых фруктов. Если мы удалим такие покупки, коты будут недостаточно представлены в итоговой выборке.
Чтобы найти оптимальную линию разграничения, нужно сначала найти периферийные элементы данных, которые находятся ближе всего к противоположной группе. Оптимальная граница проводится посередине между такими периферийными элементами данных в обеих группах (рис. 3). Поскольку эти элементы данных помогают обнаружить оптимальную линию разграничения, их называют опорными векторами.
Градиентный бустинг. Метод обучения с учителем, при котором строится множество деревьев решений путем использования различных комбинаций бинарных вопросов для каждой ветви. Бинарные вопросы выбираются стратегически (а не случайно, как при использовании случайных лесов), в результате чего прогностическая точность каждого дерева увеличивается. После этого предсказания отдельных деревьев комбинируются, при этом прогнозы новых деревьев получают больший вес, и процесс повторяется до получения итоговых результатов.
Бэггинг. Метод, при котором во избежание переобучения создаются тысячи взаимно независимых деревьев решений, от предсказаний которых берутся средние значения. Каждое дерево строится на основе случайного поднабора данных для обучения с использованием столь же случайного поднабора предикторных переменных, выбираемых при каждом ветвлении дерева.
Ансамблирование. Метод, комбинирующий различные модели для повышения точности прогнозирования. Такой способ дает хорошие результаты в силу того, что точные прогнозы склонны подтверждать друг друга, чего не делают ошибочные.
PageRank. Алгоритм, который определяет доминирующие узлы в сети. Он ранжирует узлы, основываясь на количестве связей, а также на их силе и источнике.
RMSLE используется в случаях, когда мы хотим избежать недооценки больше, чем переоценки, например, при предсказании спроса на зонты в дождливый день. Недооценка приведет к недовольству покупателей и упущенной выгоде, в то время как переоценка означала бы только лишние запасы.
среднее отклонение между предсказанным и действительным значением для всех элементов данных. Эта метрика называется средней абсолютной ошибкой.
Из-за своей способности соотносить штрафы с уверенностью модели при прогнозе логарифмическая функция потерь широко используется в случаях, где ошибочные прогнозы весьма критичны.
Чем ближе вероятность к 100 %, тем увереннее модель в том, что покупатель купит рыбу. Логарифмическая функция потерь использует эту уверенность модели для того, чтобы штрафовать за ошибочные прогнозы: чем выше уверенность, тем больше штраф.