Meta анонсировала запуск проекта по созданию универсального переводчика речи (UST, universal speech translator). Технология позволит переводить устную речь с любых языков в режиме реального времени.
По словам Марка Цукерберга, это первая система искусственного интеллекта, способная осуществлять, например, перевод с хоккиенского языка, который широко используется в Юго-Восточном Китае и на Тайване, на английский и обратно. Это значительный шаг вперед на пути к преодолению языковых и культурных барьеров, что имеет значение на глобальном уровне.
На примере хоккиенского разработчики протестировали подход, включающий сбор обучающих данных, моделирование и создание бенчмарков для оценки качества.
В отличие от китайского, английского и испанского, которые имеют как устную, так и письменную форму, в хоккиенском нет своей письменности. Поэтому существующие модели перевода, ориентированные на письменные языки, не могут с ним работать.
С помощью технологии S2UT (Speech-to-Unit Translation) модель конвертирует входную речь в последовательность звуков, то есть разбивает ее на мелкие фонетические единицы. Затем на основе этих единиц генерируется выходной аудиосигнал на другом языке.
Чтобы улучшить качество перевода, ИИ сначала преобразует речь в текст на родственном языке (например, китайском для хоккиенского). Это помогает захватить смысл.
Для обучающей выборки применили несколько подходов:
1. Ручная разметка (текстовый перевод, грамматические структуры, части речи и.т.д.) и комментарии от лингвистов.
2. Составление переводов на двух языках на основе больших массивов информации (аудио видео), которая изначально не имеет разметки и перевода.
3. Псевдоразметка — автоматическое создание предварительных разметок с последующей проверкой экспертами.
Простыми словами, псевдоразметка создается с использованием алгоритмов. Поскольку данные приблизительные, возможны ошибки и неточности.
Таким образом, проект UST нацелен на преодоление языковых барьеров как в реальном мире, так и в метавселенной. Meta планирует развивать проект и расширить его на другие устные языки, не имеющие письменных аналогов.
Источник: SecurityLab