Как Meta решила главную проблему машинного перевода с системой Seamless.
В 2023 году исследователи из компании Meta* опросили 34 носителя испанского и китайского языков, живущих в США, но не говорящих по-английски. Им хотелось узнать, чего ждут от искусственного интеллекта люди, которые каждый день сталкиваются с языковым барьером.
Участники опроса мечтали об универсальном устройстве, похожем на механизм из "Звездного пути" или рыбку Бабелфиш из "Автостопом по галактике". Им нужен был ИИ, который мог бы не только мгновенно передавать речь на разные языки, но и сохранять голос говорящего, его интонации, манеру речи и эмоции. Для воплощения этой мечты компания собрала команду из 50 специалистов.
В результате Для просмотра ссылки Войдиили Зарегистрируйся под названием Seamless. Её первый компонент, описанный в свежем номере журнала Nature, умеет передавать смысл сказанного между 36 языками.
Современные программы в основном работают с письменным текстом - его легко найти в интернете на разных языках. ООН и Европарламент готовят документы сразу на всех языках стран-участниц. Так появляются огромные базы, где один и тот же документ существует в разных версиях - их подготовили профессиональные переводчики. Если загрузить такие тексты в нейросети (или раньше - в скрытые марковские модели), получится неплохая система машинного перевода. Но тут возникли две проблемы. Первая заключалась в том, что базы состояли из официальных документов. Поэтому даже если нужно было перевести отрывок комедии, ИИ выдавал сухой канцелярский текст. Вторая проблема касалась речи - в базах не было аудиозаписей.
С формальностью языка справились, добавив в обучающие наборы менее официальные источники: книги, статьи из Википедии и похожие материалы. А вот нехватка параллельных аудиозаписей осталась. Обе проблемы еще можно было как-то решить для распространенных языков вроде английского или испанского, но для редких, таких как исландский или зулу, ситуация была совсем печальной.
В итоге современные программы хорошо справляются с текстами на множестве языков, но передача речи дается им сложнее. Существуют каскадные системы, которые делают это поэтапно: сначала преобразуют речь в текст, как при обычном распознавании, затем обрабатывают текст и синтезируют речь на нужном языке. Из-за ошибок, которые накапливаются на каждом этапе, качество получается низким, да и о работе в реальном времени речи не идет.
Существуют разработки для прямого перевода устной речи, но большинство из них работает только в одну сторону - на английский. Если собеседник скажет фразу на одном из языков, поддерживаемых такими инструментами как Google AudioPaLM, он получит ее на английском. Но вести полноценный разговор пока невозможно.
В 1949 году математик Уоррен Уивер, который одним из первых занялся машинным переводом, предположил, что может существовать пока не открытый универсальный язык - общая основа человеческого общения. Спустя 70 лет команда Seamless в поисках данных обратилась именно к этой идее. Универсальным языком оказалась математика, а точнее - многомерные векторы.
Компьютеры воспринимают слова не так, как люди. Для понимания смысла машина превращает их в последовательности чисел - векторы значений. Когда через этот процесс проходят десятки миллионов документов, рождается огромное многомерное пространство. В нем близкие по смыслу и часто соседствующие слова, например "чай" и "кофе", располагаются рядом. Если же обработать документы Европарламента на двух языках, возникают два отдельных векторных пространства, и нейросеть учится находить соответствия между ними.
Но у команды Meta не было готовых параллельных текстов для всех нужных языков. Поэтому они векторизовали все материалы на всех языках как единый массив и поместили их в общее пространство под названием SONAR (Sentence-level Multimodal and Language-Agnostic Representations). Затем взялись за речь: с помощью популярного инструмента W2v (word to vector) преобразовали аудиоданные и добавили их в то же многоязычное мультимодальное пространство. Каждый вектор содержал метаданные об исходном языке и типе данных - текст или речь.
Команда использовала огромные массивы необработанных данных без сложной разметки и выравнивания человеком. А дальше началась магия интеллектуального анализа.
Векторы SONAR охватывали не отдельные слова, а целые высказывания. Такой подход помогал учесть особенности языков с богатой морфологией, где одно слово может соответствовать нескольким в других наречиях. Но главное - фразы со схожим смыслом группировались вместе в векторном пространстве, независимо от исходного языка.
Этот принцип работал и с устной речью: похожие высказывания оказывались по соседству. Механизм действовал даже на стыке устной и письменной форм. Исследователи предположили: если векторы находятся достаточно близко - неважно, получены они из текста или из речи и на каком языке - значит, они передают один и тот же смысл.
Благодаря этому появились миллионы автоматически выровненных текстов даже на редких языках и тысячи часов расшифрованного аудио. Все эти материалы использовали для обучения новой технологии.
К автоматически собранному материалу добавили тексты и записи, проверенные людьми. На этой базе создали несколько моделей ИИ. Самая мощная из них - SEAMLESSM4T v2 - стала настоящим полиглотом. Она воспринимает устную речь на 101 языке и может озвучить ее на любом из 36 поддерживаемых наречий. SEAMLESSM4T v2 распознает устную речь на 96 языках, превращает голос в текст с охватом 101 входного и 96 выходных языков, а также озвучивает написанное на 96 языках в речь на 36 языках. По шкале BLEU (стандартный способ оценки качества) новая модель обошла существующие решения на 8% при работе с текстом и на 23% при передаче устной речи.
Но возможности системы на этом не заканчиваются. Статья в Nature описывает только модели SEAMLESSM4T, поскольку журнал проходит длительную проверку научной точности. Материал, опубликованный 15 января 2025 года, поступил в редакцию в конце ноября 2023 года. В архиве препринтов arXiv.org можно найти описание еще двух моделей, которые команда Seamless уже встроила поверх SEAMLESSM4T: SeamlessStreaming и SeamlessExpressive. Они приближают этот ИИ к воплощению мечты об универсальном коммуникаторе.
Базовая SEAMLESSM4T, несмотря на все улучшения, работала как обычный помощник: нужно было сказать фразу, нажать кнопку и дождаться результата. А вот SeamlessStreaming должна решить проблему задержки. Она спроектирована по принципу синхрониста - передает смысл по мере того, как человек говорит. SeamlessExpressive же сохраняет манеру самовыражения. Когда пользователь шепчет, говорит радостно или кричит от злости, модель фиксирует особенности голоса - тон, просодию, громкость, темп - и преобразовывает их в речь на языке назначения.
Пока нельзя использовать обе функции одновременно - приходится выбирать между потоковой передачей и сохранением выразительности. К тому же выразительная версия работает только на английском, испанском, французском и немецком. Зато систему уже можно опробовать онлайн.
<span style="font-size: 8pt;">* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
В 2023 году исследователи из компании Meta* опросили 34 носителя испанского и китайского языков, живущих в США, но не говорящих по-английски. Им хотелось узнать, чего ждут от искусственного интеллекта люди, которые каждый день сталкиваются с языковым барьером.
Участники опроса мечтали об универсальном устройстве, похожем на механизм из "Звездного пути" или рыбку Бабелфиш из "Автостопом по галактике". Им нужен был ИИ, который мог бы не только мгновенно передавать речь на разные языки, но и сохранять голос говорящего, его интонации, манеру речи и эмоции. Для воплощения этой мечты компания собрала команду из 50 специалистов.
В результате Для просмотра ссылки Войди
Современные программы в основном работают с письменным текстом - его легко найти в интернете на разных языках. ООН и Европарламент готовят документы сразу на всех языках стран-участниц. Так появляются огромные базы, где один и тот же документ существует в разных версиях - их подготовили профессиональные переводчики. Если загрузить такие тексты в нейросети (или раньше - в скрытые марковские модели), получится неплохая система машинного перевода. Но тут возникли две проблемы. Первая заключалась в том, что базы состояли из официальных документов. Поэтому даже если нужно было перевести отрывок комедии, ИИ выдавал сухой канцелярский текст. Вторая проблема касалась речи - в базах не было аудиозаписей.
С формальностью языка справились, добавив в обучающие наборы менее официальные источники: книги, статьи из Википедии и похожие материалы. А вот нехватка параллельных аудиозаписей осталась. Обе проблемы еще можно было как-то решить для распространенных языков вроде английского или испанского, но для редких, таких как исландский или зулу, ситуация была совсем печальной.
В итоге современные программы хорошо справляются с текстами на множестве языков, но передача речи дается им сложнее. Существуют каскадные системы, которые делают это поэтапно: сначала преобразуют речь в текст, как при обычном распознавании, затем обрабатывают текст и синтезируют речь на нужном языке. Из-за ошибок, которые накапливаются на каждом этапе, качество получается низким, да и о работе в реальном времени речи не идет.
Существуют разработки для прямого перевода устной речи, но большинство из них работает только в одну сторону - на английский. Если собеседник скажет фразу на одном из языков, поддерживаемых такими инструментами как Google AudioPaLM, он получит ее на английском. Но вести полноценный разговор пока невозможно.
В 1949 году математик Уоррен Уивер, который одним из первых занялся машинным переводом, предположил, что может существовать пока не открытый универсальный язык - общая основа человеческого общения. Спустя 70 лет команда Seamless в поисках данных обратилась именно к этой идее. Универсальным языком оказалась математика, а точнее - многомерные векторы.
Компьютеры воспринимают слова не так, как люди. Для понимания смысла машина превращает их в последовательности чисел - векторы значений. Когда через этот процесс проходят десятки миллионов документов, рождается огромное многомерное пространство. В нем близкие по смыслу и часто соседствующие слова, например "чай" и "кофе", располагаются рядом. Если же обработать документы Европарламента на двух языках, возникают два отдельных векторных пространства, и нейросеть учится находить соответствия между ними.
Но у команды Meta не было готовых параллельных текстов для всех нужных языков. Поэтому они векторизовали все материалы на всех языках как единый массив и поместили их в общее пространство под названием SONAR (Sentence-level Multimodal and Language-Agnostic Representations). Затем взялись за речь: с помощью популярного инструмента W2v (word to vector) преобразовали аудиоданные и добавили их в то же многоязычное мультимодальное пространство. Каждый вектор содержал метаданные об исходном языке и типе данных - текст или речь.
Команда использовала огромные массивы необработанных данных без сложной разметки и выравнивания человеком. А дальше началась магия интеллектуального анализа.
Векторы SONAR охватывали не отдельные слова, а целые высказывания. Такой подход помогал учесть особенности языков с богатой морфологией, где одно слово может соответствовать нескольким в других наречиях. Но главное - фразы со схожим смыслом группировались вместе в векторном пространстве, независимо от исходного языка.
Этот принцип работал и с устной речью: похожие высказывания оказывались по соседству. Механизм действовал даже на стыке устной и письменной форм. Исследователи предположили: если векторы находятся достаточно близко - неважно, получены они из текста или из речи и на каком языке - значит, они передают один и тот же смысл.
Благодаря этому появились миллионы автоматически выровненных текстов даже на редких языках и тысячи часов расшифрованного аудио. Все эти материалы использовали для обучения новой технологии.
К автоматически собранному материалу добавили тексты и записи, проверенные людьми. На этой базе создали несколько моделей ИИ. Самая мощная из них - SEAMLESSM4T v2 - стала настоящим полиглотом. Она воспринимает устную речь на 101 языке и может озвучить ее на любом из 36 поддерживаемых наречий. SEAMLESSM4T v2 распознает устную речь на 96 языках, превращает голос в текст с охватом 101 входного и 96 выходных языков, а также озвучивает написанное на 96 языках в речь на 36 языках. По шкале BLEU (стандартный способ оценки качества) новая модель обошла существующие решения на 8% при работе с текстом и на 23% при передаче устной речи.
Но возможности системы на этом не заканчиваются. Статья в Nature описывает только модели SEAMLESSM4T, поскольку журнал проходит длительную проверку научной точности. Материал, опубликованный 15 января 2025 года, поступил в редакцию в конце ноября 2023 года. В архиве препринтов arXiv.org можно найти описание еще двух моделей, которые команда Seamless уже встроила поверх SEAMLESSM4T: SeamlessStreaming и SeamlessExpressive. Они приближают этот ИИ к воплощению мечты об универсальном коммуникаторе.
Базовая SEAMLESSM4T, несмотря на все улучшения, работала как обычный помощник: нужно было сказать фразу, нажать кнопку и дождаться результата. А вот SeamlessStreaming должна решить проблему задержки. Она спроектирована по принципу синхрониста - передает смысл по мере того, как человек говорит. SeamlessExpressive же сохраняет манеру самовыражения. Когда пользователь шепчет, говорит радостно или кричит от злости, модель фиксирует особенности голоса - тон, просодию, громкость, темп - и преобразовывает их в речь на языке назначения.
Пока нельзя использовать обе функции одновременно - приходится выбирать между потоковой передачей и сохранением выразительности. К тому же выразительная версия работает только на английском, испанском, французском и немецком. Зато систему уже можно опробовать онлайн.
<span style="font-size: 8pt;">* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
- Источник новости
- www.securitylab.ru