В учебнике для инженеров выделяется четыре главных типа графиков:
1. график последовательного выполнения;
2. график задержки;
3. гистограмма;
4. график нормального распределения.
Подготовка данных включает, но не ограничивается, следующие элементы:
1) проверка правильности формирования индекса, наименования столбцов (признаков). Например, может быть обнаружено, что в наименовании столбцов есть лишние пробелы;
2) проверка типа данных. Например, численные данные могут быть отмечены как объекты или наоборот;
3) поиск дубликатов;
4) очистка строковых данных от лишних символов. Например, наличие слэша там, где это очевидно неуместно;
5) обработка значений, которые очевидно являются ошибочными. Например, в столбце с количеством страниц указан жанр книги и т.п.;
6) создание новых признаков. Например, по значениям двух уже имеющихся столбцов можно создать третий;
7) укрупнение категорий в категориальных признаках;
Машинное обучение нацелено на создание алгоритма, который позволит предсказывать целевой признак на основании заданных признаков в автоматизированном режиме. Другими словами, статистическая обработка позволяет понять процессы, а машинное обучение — предсказать процессы.