VALL-E може імітувати тембр та манеру мови, прослухавши голос реальної людини всього лише три секунди. І хоч звучання трохи видає електронний голос, результат все одно вражає – модель синтезу мовлення може зберегти емоційний тон мовця та навіть акустичне середовище.
Що відомо
Microsoft назвала свою розробку "мовною моделлю нейронного кодека". VALL-E створювалась на основі EnCodec (звуковий кодек, що використовує методи машинного навчання), розробленому Meta у 2022 році.
На відміну від інших методів перетворення тексту в мову, які зазвичай синтезують мовлення шляхом маніпулювання формами хвиль, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. Фактично, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти (так звані "токени") завдяки EnCodec, і використовує навчальні дані, щоб відповідати тому, що він "знає" про те, як звучав би цей голос, якби він говорив інші фрази за межами трисекундного зразка.
У статті, яка описує технологію, присутні кілька порівняльних записів. Вони поділені на 4 колонки:
У пункті Speaker Prompt можна прослухати оригінальний запис голосу обмежений лише трьома секундами.
Що відомо
Microsoft назвала свою розробку "мовною моделлю нейронного кодека". VALL-E створювалась на основі EnCodec (звуковий кодек, що використовує методи машинного навчання), розробленому Meta у 2022 році.
На відміну від інших методів перетворення тексту в мову, які зазвичай синтезують мовлення шляхом маніпулювання формами хвиль, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. Фактично, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти (так звані "токени") завдяки EnCodec, і використовує навчальні дані, щоб відповідати тому, що він "знає" про те, як звучав би цей голос, якби він говорив інші фрази за межами трисекундного зразка.
У статті, яка описує технологію, присутні кілька порівняльних записів. Вони поділені на 4 колонки:
У пункті Speaker Prompt можна прослухати оригінальний запис голосу обмежений лише трьома секундами.
У колонці Ground Truth – фраза цілком.
Baseline наводить приклад звичайного синтезатора мови.Четвертий стовпчик дозволяє прослухати фразу у виконанні нейромережі VALL-E.
VALL-E навчали на основі бібліотеки LibriLight, що містить 60 000 годин англомовного мовлення більш ніж від 7000 осіб.
Розробники припускають, що технологію можна використовувати для високоякісних програм перетворення тексту в мовлення, редагування записів мови, де слова людини дозволяється змінювати, створення аудіоконтенту (наприклад, озвучування аудіокниг) тощо.
За матеріалами https://24tv.ua/
За матеріалами https://24tv.ua/