Всього кілька днів тому Meta представила свою нейромережу Make-To-Video, яка генерує відео за словесними описами, а тепер до цього сегменту приєднується компанія Google.
Нейромережа Imagen Video: особливостіImagen Video здатна за словесними запитами генерувати відео з роздільною здатністю 1280 768 пікселів і частотою 24 кадри в секунду. Інструмент базується на алгоритмі Imagen, що є аналогом DALL-E 2 та Stable Diffusion. Генератор картинок використовує велику передбачену мовну нейромережу та каскадну дифузну модель.
Як пояснюють в Google, Imagen Video бере текстовий опис і створює 16-кадровий ролик з роздільною здатністю 24х48 пікселів і частотою 3 FPS. Потім система масштабує та «передбачає» додаткові зображення. В результаті алгоритм генерує 128-кадрову анімацію з роздільною здатністю 1280×768 пікселів та частотою 24 FPS.
Для навчання Imagen Video розробники використовували 14 млн пар «відео-опис» та 60 млн «зображення-текст», а також загальнодоступний набір даних LAION-400M, що дозволило моделі застосовувати низку естетичних аспектів.
У порівнянні з доступними сьогодні системами створення зображень Imagen Video також може належним чином відтворювати текст. У той час як і Stable Diffusion, і DALL-E 2 важко перекладають підказки на зразок «логотип для „Diffusion“» у читабельний шрифт, Imagen Video відтворює це без проблем.
Це не означає, що Imagen Video не має обмежень. Як і у випадку з Make-A-Video, навіть кліпи, вибрані з Imagen Video, тремтять і місцями спотворені.
Щоб покращити ситуацію, команда Imagen Video планує об'єднати зусилля з дослідниками Phenaki, ще однієї системи перетворення тексту у відео від Google, яка дебютувала сьогодні та може перетворювати довгі, детальні підказки на двохвилинні відеоролики — хоча і з нижчою якістю.
За матеріалами https://speka.media/
Нейромережа Imagen Video: особливостіImagen Video здатна за словесними запитами генерувати відео з роздільною здатністю 1280 768 пікселів і частотою 24 кадри в секунду. Інструмент базується на алгоритмі Imagen, що є аналогом DALL-E 2 та Stable Diffusion. Генератор картинок використовує велику передбачену мовну нейромережу та каскадну дифузну модель.
Як пояснюють в Google, Imagen Video бере текстовий опис і створює 16-кадровий ролик з роздільною здатністю 24х48 пікселів і частотою 3 FPS. Потім система масштабує та «передбачає» додаткові зображення. В результаті алгоритм генерує 128-кадрову анімацію з роздільною здатністю 1280×768 пікселів та частотою 24 FPS.
Для навчання Imagen Video розробники використовували 14 млн пар «відео-опис» та 60 млн «зображення-текст», а також загальнодоступний набір даних LAION-400M, що дозволило моделі застосовувати низку естетичних аспектів.
У порівнянні з доступними сьогодні системами створення зображень Imagen Video також може належним чином відтворювати текст. У той час як і Stable Diffusion, і DALL-E 2 важко перекладають підказки на зразок «логотип для „Diffusion“» у читабельний шрифт, Imagen Video відтворює це без проблем.
Це не означає, що Imagen Video не має обмежень. Як і у випадку з Make-A-Video, навіть кліпи, вибрані з Imagen Video, тремтять і місцями спотворені.
Щоб покращити ситуацію, команда Imagen Video планує об'єднати зусилля з дослідниками Phenaki, ще однієї системи перетворення тексту у відео від Google, яка дебютувала сьогодні та може перетворювати довгі, детальні підказки на двохвилинні відеоролики — хоча і з нижчою якістю.
За матеріалами https://speka.media/