Meta научила ИИ переводить устную речь с любого языка

Meta анонсировала запуск проекта по созданию универсального переводчика речи (UST, universal speech translator). Технология позволит переводить устную речь с любых языков в режиме реального времени.

По словам Марка Цукерберга, это первая система искусственного интеллекта, способная осуществлять, например, перевод с хоккиенского языка, который широко используется в Юго-Восточном Китае и на Тайване, на английский и обратно. Это значительный шаг вперед на пути к преодолению языковых и культурных барьеров, что имеет значение на глобальном уровне.

На примере хоккиенского разработчики протестировали подход, включающий сбор обучающих данных, моделирование и создание бенчмарков для оценки качества.

В отличие от китайского, английского и испанского, которые имеют как устную, так и письменную форму, в хоккиенском нет своей письменности. Поэтому существующие модели перевода, ориентированные на письменные языки, не могут с ним работать.

С помощью технологии S2UT (Speech-to-Unit Translation) модель конвертирует входную речь в последовательность звуков, то есть разбивает ее на мелкие фонетические единицы. Затем на основе этих единиц генерируется выходной аудиосигнал на другом языке.

Чтобы улучшить качество перевода, ИИ сначала преобразует речь в текст на родственном языке (например, китайском для хоккиенского). Это помогает захватить смысл.

Для обучающей выборки применили несколько подходов:

1. Ручная разметка (текстовый перевод, грамматические структуры, части речи и.т.д.) и комментарии от лингвистов.

2. Составление переводов на двух языках на основе больших массивов информации (аудио видео), которая изначально не имеет разметки и перевода.

3. Псевдоразметка — автоматическое создание предварительных разметок с последующей проверкой экспертами.

Простыми словами, псевдоразметка создается с использованием алгоритмов. Поскольку данные приблизительные, возможны ошибки и неточности.

Таким образом, проект UST нацелен на преодоление языковых барьеров как в реальном мире, так и в метавселенной. Meta планирует развивать проект и расширить его на другие устные языки, не имеющие письменных аналогов.

Источник: SecurityLab

Поделиться ссылкой: