Искусственный интеллект переводит речь в реальном времени сохраняя интонацию

Искусственный интеллект переводит речь в реальном времени сохраняя интонацию

Разработчики из Google Research представили революционный алгоритм перевода речи с одного языка на другой — Translatotron. Это первый ИИ, который манипулирует исключительно звуками речи.

Нынешние алгоритмы перевода — в том числе и Google Translate — работают как каскадная система. Вначале одна часть распознает, что сказал человек, и переводит звуки в текст. Затем этот текст переводят на целевой язык и снова озвучивают.

В Google Research указывают, что такой подход медленнее, а к тому же менее надежен из-за того, что с речью совершают целый ряд преобразований. Уже сейчас Translatortron быстрее традиционных систем.

БЕСПРОВОДНЫЕ НАУШНИКИ-ПЕРЕВОДЧИКИ PLUSTW2 СПОСОБНЫ ПЕРЕВОДИТЬ РЕЧЬ С 21 ЯЗЫКА

А вот точнее его сделать пока не удалось. Пока это лишь доказательство концепции: «Хотя наши результаты отстают от обычной каскадной системы, мы продемонстрировали возможность сквозного прямого преобразования речи в речь».

Translatotron напрямую преобразует спектрограмму из одного языка в другой. Нынешний прототип работает с двумя самыми распространенными в США — английским и испанским языком.

При этом у алгоритма есть особенность, которую традиционные каскадные системы скопировать не в силах. Благодаря анализу звуковых волн можно подключить надстройку, которая при переводе фразы постарается сохранить особенности голоса и интонации говорящего.

ОПЛАЧИВАТЬ ПОКУПКИ ТОВАРОВ НА КАССЕ МОЖНО БУДЕТ… ЛИЦОМ

Использование подобных Translatotron алгоритмов вдохнет новую жизнь в гаджеты-переводчики, подобные наушникам, которые выпустила компания Timekettle.