VALL-E от Microsoft подделывает голос человека за три секунды

Искусственный интеллект от Microsoft способен поделать любой голос на основе трехсекундной записи. Новая программа может передать эмоции и тон говорящего.

Источник изображения: pixabay.com

Корпорация Майкрософт недавно выпустила новый инструмент под названием VALL-E, который представляет собой языковую модель для синтеза текста в речь. Для создания уникальной голосовой дорожки достаточно трехсекундной оригинальной речи. Исследование, проведенное сотрудниками Корнуэльского университета, показало, что после обучения ИИ демонстрирует способности к контекстному обучению. VALL-E выгодно отличается на фоне современных систем TTS естественностью звучания речи. В частности, разработка сохраняет эмоции оригинального человека и повторяет акустическую среду.

В настоящее время Microsoft не открывает VALL-E для публичного доступа, но в Сети появились примеры работы ИИ с готовыми голосовыми файлами. Исследователи пришли к выводу, что сгенерированная речь отличается по качеству, а в некоторых случаях виден факт искусственного происхождения записей. Авторы готовы к дальнейшему обучению ИИ на разных голосах, в том числе с разными акцентами. Это, по их мнению, значительно повысит качество работы системы.
Источник: hightech.fm