При распределенном обучении работа по обучению модели обычно распределяется между несколькими рабочими узлами, которые функционируют параллельно, чтобы ускорить обучение. Существует два основных типа распределенного обучения: параллелизм данных [13] и параллелизм модели [14].