Чтобы натренировать нейронную сеть на перевод, требуется большое количество параллельных текстов, как и для статистических систем. При этом разбивка текстов на фразы и соответствие слов не нужны. Нейросеть пытается сначала закодировать исходное предложение в абстрактный набор чисел, а потом декодировать их обратно в слова, но уже на другом языке.
Для этого алгоритм сначала «читает» предложение одновременно и слева направо, и справа налево, а потом предсказывает слова перевода, причем уже сгенерированные слова используются для предсказания следующего.