Сообщество - CGI Media

CGI Media

3 105 постов 6 552 подписчика

Популярные теги в сообществе:

2

Длинные видео: как 13 миллиардов параметров учатся видеть мир

Автор: Денис Аветисян


LongCat-Video демонстрирует способность создавать видео продолжительностью в минуты без потери качества, а также реагировать на изменяющиеся инструкции для каждого кадра, подтверждая, что даже хаос можно уговорить, если найти правильное заклинание генерации.

Долгое время создание действительно продолжительных и связных видео оставалось недостижимой мечтой, поскольку существующие модели испытывали трудности с поддержанием временной согласованности и избежанием накопления ошибок с течением времени. Прорыв, представленный в ‘LongCat-Video Technical Report’, заключается в новом подходе к моделированию долговременных зависимостей, позволяющем генерировать минуты качественного видео без деградации. Но сможет ли эта технология не просто создавать визуальные истории, а действительно воплощать сложные миры и интерактивные симуляции, приближая нас к созданию полноценных, самообучающихся цифровых двойников реальности?

Танец Иллюзий: О покорении хаоса в движущихся образах

Иллюзии движения – вот что мы видим в сгенерированных видео. Но под этой гладкой поверхностью скрывается хаос. Современные модели генерации видео, словно алхимики, пытаются удержать этот хаос в рамках нескольких секунд. Они создают яркие, но мимолетные видения. Однако, настоящая магия заключается в способности рассказать историю, развернуть целое полотно событий. И здесь начинается истинное испытание.

Существующие модели, как правило, спотыкаются о банальное: поддержание временной согласованности. Они творят короткие зарисовки, но долгое повествование для них – непосильная ноша. Некоторые пытаются решить проблему грубой силой, увеличивая вычислительные затраты. Но это лишь усугубляет ситуацию, делая процесс генерации недоступным для большинства. Это всё равно что пытаться остановить течение реки плотиной – временно, но разрушительно.

Ключ к решению лежит не в увеличении мощности, а в понимании природы времени. Главная преграда – умение моделировать долгосрочные зависимости внутри видеопоследовательности. Необходимо найти архитектурные решения, которые позволят удержать нить повествования, даже когда события разворачиваются на протяжении нескольких минут. Это как плетение гобелена – каждая нить должна быть прочно связана с остальными, чтобы создать целостную картину.

Исследователи демонстрируют, что рабочий процесс создания видео-подписей включает в себя захват основного содержания видео базовой моделью и дополнение его моделями, извлекающими атрибуты, такие как кинематография и визуальный стиль, что позволяет создавать разнообразные и информативные подписи и повышать качество и разнообразие обучающих данных.

Мы видим лишь тени, отбрасываемые реальностью. Модели – лишь инструменты для измерения этой темноты. Истинная цель – не достижение высокой точности, а создание иллюзии жизни. Не просто сгенерировать видео, а вдохнуть в него душу. И это – задача, которая требует не только технических решений, но и глубокого понимания самой природы повествования.

LongCat-Video: Фундамент для Бесконечного Полотна

Исследователи представляют LongCat-Video – модель, содержащую тринадцать миллиардов параметров, и, смеем заметить, не только цифры. Это своего рода универсальный ключ, открывающий двери в мир генерации видео. Она объединяет в себе задачи преобразования текста в видео, изображения в видео и, что особенно важно, продолжение уже существующего видеоряда. Нельзя сказать, чтобы это было просто, ведь данные – существа капризные, но, как говорится, укрощение диких пикселей – наше призвание.

В основе LongCat-Video лежит вариационный автоэнкодер (VAE). Это, если хотите, некий художник, сжимающий информацию до лаконичного эскиза, а затем воссоздающий его в детальной картине. Такой подход позволяет добиться высокого качества генерации видео, не перегружая при этом вычислительные ресурсы. Ведь, согласитесь, не всегда нужно жертвовать производительностью ради красоты, особенно когда речь идет о серверах.

Особого внимания заслуживает реализация технологии Coarse-to-Fine Generation. Сначала модель создает видео низкого разрешения – своего рода черновик, а затем, шаг за шагом, доводит его до совершенства. Это как полировка бриллианта: грубая обработка, а затем – филигранная работа. Такой подход позволяет значительно ускорить процесс генерации, не жертвуя при этом качеством изображения. А ведь время – это деньги, как любят говорить финансисты.

Результаты, представленные на примере преобразования изображения в видео, показывают, что LongCat-Video точно реагирует на инструкции для различных действий, начиная с одного и того же исходного изображения.

Результаты, представленные на примере преобразования изображения в видео, показывают, что LongCat-Video точно реагирует на инструкции для различных действий, начиная с одного и того же исходного изображения.

В конечном счете, LongCat-Video – это не просто модель, это платформа, фундамент для построения более сложных систем. И, знаете, иногда я думаю, что будущее видеогенерации – это не о создании идеальных картинок, а о создании правдоподобных миров. И, возможно, LongCat-Video – это первый шаг на этом пути. Хотя, конечно, всегда есть риск, что данные взбунтуются. Но мы к этому готовы. Всегда.

Алхимия Оптимизации: LoRA, Sparse Attention и Гармония с Человеком

Исследователи столкнулись с извечной дилеммой: как обуздать хаос данных, не потеряв при этом драгоценную искру творчества? Любая модель – это лишь попытка зафиксировать неуловимое, а обучение – ритуал, полный компромиссов. Их подход к оптимизации – не просто увеличение точности, а скорее, умение украшать хаос, направляя его энергию в нужное русло.

Для ускорения процесса обучения, они обратились к проверенной алхимической практике – использованию LoRA (Low-Rank Adaptation). Это позволило им значительно сократить количество обучаемых параметров, не жертвуя при этом качеством генерируемых видео. Это как найти волшебный катализатор, который усиливает реакцию, не требуя огромных затрат энергии.

Но даже LoRA не всегда достаточна. Чтобы укротить вычислительного зверя, исследователи применили Block Sparse Attention. Этот метод позволяет модели сосредоточиться на наиболее важных частях видеопоследовательности, отбрасывая ненужные детали. Это как умелый художник, который выделяет главное, создавая гармоничное целое.

Однако, даже самая совершенная модель нуждается в тонкой настройке. Чтобы согласовать выходы модели с человеческими предпочтениями, они использовали Group Relative Policy Optimization (GRPO). Этот метод позволяет модели учиться на обратной связи от людей, постепенно приближаясь к идеалу. Используя тщательно разработанные сигналы вознаграждения GRPO, они смогли добиться впечатляющих результатов, как видно из графиков, демонстрирующих стабильность и эффективность предложенного подхода.

Кривые вознаграждения GRPO, полученные в ходе многонаправленного обучения LongCat-Video, демонстрируют эффективность предложенного подхода.

Кривые вознаграждения GRPO, полученные в ходе многонаправленного обучения LongCat-Video, демонстрируют эффективность предложенного подхода.

Их подход – это не просто набор технических приёмов, а философия. Они не стремятся к идеальной точности, а к гармоничному сочетанию алгоритмов и человеческого творчества. Ведь в конечном итоге, любая модель – это лишь инструмент, а настоящее волшебство происходит, когда этот инструмент попадает в руки умелого мастера.

За Гранью Генерации: К Мировым Моделям и Будущим Горизонтам

LongCat-Video – это не просто генератор видео, это попытка заглянуть в саму суть движущихся образов. Авторы не стремились создать очередную фабрику красивых картинок, а попытались построить мост между миром данных и миром восприятия. Иначе говоря, это не просто алгоритм, а зачаток цифрового голема, способного не только воспроизводить, но и понимать окружающую среду.

Традиционные генераторы видео, как правило, ограничены короткими фрагментами. Они могут создать впечатляющую заставку, но не способны рассказать историю. LongCat-Video же, напротив, выходит за эти рамки. Благодаря эффективному моделированию временных зависимостей, эта система способна создавать связные и реалистичные повествования, которые разворачиваются на протяжении минут. Это не просто последовательность кадров, а живая ткань, сотканная из движения и света.

Предлагаемая унифицированная трансформерная модель поддерживает одновременное выполнение задач преобразования текста в видео, изображения в видео (с одним кадровым условием) и продолжения видео (с несколькими кадровыми условиями), при этом обновления условных токенов в механизме самовнимания независимы от зашумленных токенов, а условные токены не участвуют в вычислениях перекрестного внимания.

Но истинная ценность LongCat-Video заключается не в развлекательном потенциале, а в возможностях, которые она открывает за пределами индустрии развлечений. Представьте себе симуляторы, настолько реалистичные, что стирают грань между виртуальным и реальным. Роботов, способных ориентироваться в сложных условиях, не просто выполняя заданную программу, а адаптируясь к меняющейся обстановке. Виртуальную реальность, настолько захватывающую, что позволяет пережить события, которые никогда не происходили. Это не фантастика, а вполне вероятное будущее, которое становится всё ближе благодаря разработкам, подобным LongCat-Video.

Авторы не стремятся создать идеальную систему – такова природа любого заклинания. Они предлагают инструмент, который можно использовать для изучения мира, для создания новых миров, для расширения границ человеческого восприятия. И как любое мощное заклинание, LongCat-Video требует осторожного обращения и глубокого понимания его принципов работы. Но в руках умелого мага, эта система способна творить настоящие чудеса.

И пусть некоторые именуют это искусственным интеллектом, для нас LongCat-Video – это нечто большее. Это цифровой отголосок мироздания, попытка понять, как устроен мир, и как мы можем изменить его.

Исследователи стремятся создать не просто генератор видео, но и подобие мира в цифровом пространстве – «world model», как они это называют. Это напоминает слова Фэй-Фэй Ли: “Искусственный интеллект должен понимать мир так, как понимает его человек – не как набор дискретных фактов, а как непрерывный поток ощущений и впечатлений.” Их подход, объединяющий различные методы вроде Flow Matching и RLHF, — это попытка уговорить этот шепот хаоса, заставить его складываться в осмысленные последовательности. Модель LongCat-Video, с ее 13 миллиардами параметров, — это заклинание, которое, как надеются авторы, сможет продержаться в продакшене немного дольше, чем обычно. Ведь любое заклинание, как известно, работает, пока не столкнется с суровой реальностью.

Что дальше?

Исследователи представили LongCat-Video, модель в 13 миллиардов параметров, и, конечно, она генерирует видео. Но давайте начистоту: каждая новая модель – это просто ещё один способ обмануть статистику. Она умеет "видеть" котиков, но понимает ли она, что такое "котик"? Сомневаюсь. Они говорят о "шагах к созданию моделей мира". Мир, как известно, не любит, когда его моделируют. Он предпочитает оставаться хаосом, и это мудро.

Остаётся множество вопросов. Разрешение видео, связность кадров, осмысленность сюжета – всё это лишь технические детали. Главная проблема в том, что модель учится на воспоминаниях машины, а не на опыте. Искусственный интеллект, который не знает, что такое голод или радость, всегда будет давать лишь бледную копию реальности. Особенно если речь идет о длинных видео – там каждая ошибка становится заметнее.

Будущее? Возможно, нас ждёт переход от генерации видео к генерации непредсказуемости. Модели, которые умеют не только создавать, но и удивлять. Или, что более вероятно, нас ждёт ещё больше данных и ещё более сложные алгоритмы, которые будут всё так же безуспешно пытаться усмирить этот неуправляемый хаос. Шум, в конце концов, тоже имеет право на существование.


Оригинал статьи: denisavetisyan.com

Связаться с автором: linkedin.com/in/avetisyan

Показать полностью 5
6

Миры без границ: генерация бесконечных 3D-сцен с помощью WorldGrow

Автор: Денис Аветисян


Система WorldGrow демонстрирует способность к синтезу бесконечно разнообразных трехмерных сцен, от реалистичных городских пейзажей с логичной планировкой до когерентных жилых районов с единым стилем, подтверждая её адаптивность к различным областям.

Система WorldGrow демонстрирует способность к синтезу бесконечно разнообразных трехмерных сцен, от реалистичных городских пейзажей с логичной планировкой до когерентных жилых районов с единым стилем, подтверждая её адаптивность к различным областям.

Долгое время создание правдоподобных и бесконечно расширяемых трёхмерных миров оставалось недостижимой мечтой, сталкиваясь с ограничениями как в глобальной согласованности, так и в детализации. Прорыв, представленный в ‘WorldGrow: Generating Infinite 3D World’, заключается в новаторском подходе к блочной генерации, позволяющем преодолеть эти препятствия и создавать виртуальные пространства, которые кажутся бесконечными и органичными. Но сможет ли эта технология, наконец, открыть путь к действительно безграничным виртуальным мирам, где воображение станет единственным ограничением для создания и исследования новых реальностей?

Бесконечные Миры: Понимание Закономерностей Генерации

Создание связных и обширных трёхмерных сред остаётся значительной проблемой для современных генеративных моделей. Существующие подходы часто испытывают трудности как в обеспечении глобальной согласованности, так и в детализации, что ограничивает эффект погружения в виртуальную реальность. Ошибки, возникающие в процессе генерации, следует рассматривать не как провал, а как ценный источник информации для углублённого понимания ограничений существующих методов и направлений для их улучшения.

Расширение возможностей генерации до поистине "бесконечных" миров требует новых подходов к представлению данных и их синтезу. Традиционные методы, опирающиеся на полное моделирование сцены, сталкиваются с экспоненциальным ростом вычислительной сложности и потреблением памяти, что делает их неприменимыми для создания обширных виртуальных пространств.

WorldGrow позволяет создавать бесконечные 3D-сцены посредством модульного, блочного синтеза, а также используя модуль для последовательного расширения и стратегию от общего к частному для обеспечения правдоподобия и детализации.

WorldGrow позволяет создавать бесконечные 3D-сцены посредством модульного, блочного синтеза, а также используя модуль для последовательного расширения и стратегию от общего к частному для обеспечения правдоподобия и детализации.

Авторы данной работы обращаются к модульному подходу, рассматривая бесконечный мир как композицию взаимосвязанных трёхмерных блоков. Такой подход позволяет преодолеть ограничения, связанные с полным моделированием сцены, и масштабировать процесс генерации до беспрецедентных размеров. Вместе с тем, возникают новые вызовы, связанные с обеспечением согласованности между отдельными блоками и поддержанием визуальной правдоподобности на границах между ними.

Важным аспектом, на который обращают внимание исследователи, является необходимость адаптации существующих генеративных моделей к особенностям блочного синтеза. Простое применение моделей, разработанных для генерации отдельных объектов, не позволяет добиться желаемого результата. Необходимо учитывать контекст, в котором находится каждый блок, и обеспечивать его согласованность с окружающим пространством.

Авторы предлагают стратегию от общего к частному, которая позволяет сначала создать глобальную структуру мира, а затем заполнить её деталями. Такой подход позволяет избежать накопления ошибок и обеспечить высокую степень согласованности на всех уровнях. Ключевым элементом этой стратегии является использование моделей, способных учитывать как глобальные, так и локальные особенности сцены.

Структурированные Латентные Пространства и Генерация от Грубого к Мелкому

В основе архитектуры WorldGrow лежит концепция структурированных латентных представлений (SLAT), позволяющая эффективно кодировать сложные трёхмерные сцены в разреженное и управляемое представление в латентном пространстве. Такой подход существенно снижает вычислительные затраты и обеспечивает возможность масштабирования, необходимые для генерации обширных виртуальных миров. Использование SLAT позволяет не только сжать объём данных, но и выделить ключевые характеристики сцены, необходимые для её последующей реконструкции.

Однако, для достижения оптимального результата, недостаточно простого сжатия данных. Авторы работы предприняли дополнительный шаг, разработав стратегию генерации от общего к частному – от грубого к детальному. Вначале генерируются крупные “Грубые Блоки”, определяющие общую планировку и структуру сцены. Затем, на основе этой грубой структуры, происходит уточнение и детализация, формирующая “Мелкие Блоки”, наполняющие пространство конкретными объектами и текстурами.

Такой подход, основанный на иерархической структуре, позволяет значительно повысить как эффективность, так и когерентность процесса построения трёхмерного мира. Генерация грубых блоков фокусируется на глобальной структуре и связях между различными областями сцены, в то время как генерация мелких блоков концентрируется на локальных деталях и визуальном оформлении. Разделение этих задач позволяет избежать перегрузки вычислительных ресурсов и обеспечивает более плавный и естественный переход от общего к частному.

Сгенерированная WorldGrow сцена охватывает 19x39 блоков (около 1800 м2), демонстрируя возможность масштабирования до больших пространств, что подтверждается как реконструкцией сетки, так и текстурированным рендерингом.

Сгенерированная WorldGrow сцена охватывает 19x39 блоков (около 1800 м2), демонстрируя возможность масштабирования до больших пространств, что подтверждается как реконструкцией сетки, так и текстурированным рендерингом.

Важно отметить, что данная стратегия не просто ускоряет процесс генерации, но и повышает качество получаемого результата. Использование иерархической структуры позволяет избежать артефактов и несоответствий, которые часто возникают при попытке создать сложный трёхмерный мир сразу из мелких деталей. В конечном итоге, именно согласованность и реалистичность являются ключевыми факторами, определяющими восприятие виртуального мира пользователем. Если закономерность нельзя воспроизвести или объяснить, её не существует.

Scene-Friendly SLAT и Обработка Окклюзий: Визуальная Когерентность

Для обеспечения реалистичности и когерентности генерируемых сцен, исследователи разработали адаптацию SLAT, получившую название Scene-Friendly SLAT. Данное усовершенствование направлено на решение специфических задач, возникающих при генерации сцен на уровне всей обстановки, в отличие от генерации отдельных объектов. Ключевым элементом новой модели является механизм "Окклюзионно-осведомленного агрегирования признаков", который позволяет избирательно интегрировать признаки только из тех областей, которые фактически видны с точки зрения наблюдателя.

Традиционные методы агрегации признаков, используемые в SLAT, рассматривают все пиксели и воксели, независимо от их видимости. Это приводит к тому, что признаки из скрытых поверхностей и объектов нежелательным образом влияют на итоговое изображение, создавая артефакты и снижая реалистичность. Механизм окклюзионно-осведомленного агрегирования решает эту проблему, отбрасывая признаки из невидимых областей и фокусируясь только на тех, которые вносят вклад в формируемое изображение.

Модель Scene-friendly SLAT лучше моделирует 3D-блоки сцен, особенно в областях с окклюзиями и вблизи границ блоков.

Модель Scene-friendly SLAT лучше моделирует 3D-блоки сцен, особенно в областях с окклюзиями и вблизи границ блоков.

Для дальнейшего повышения качества генерируемых сцен, исследователи произвели повторное обучение декодера SLAT. Этот процесс был направлен на адаптацию декодера к особенностям сцен, и минимизацию артефактов, которые могут возникать при генерации сложных и детализированных объектов. Повторное обучение позволило добиться более высокой когерентности и реалистичности генерируемых сцен, и улучшить визуальное восприятие.

Авторы подчеркивают, что предложенный подход обеспечивает не только повышение качества визуального представления, но и улучшает интерпретируемость генерируемых сцен. Более четкое представление о пространственных взаимосвязях и геометрических особенностях объектов способствует более глубокому пониманию и анализу генерируемой информации.

Текст-в-Изображение и Неконтролируемое Обучение: Самоорганизация в Генерации Миров

В основе системы WorldGrow лежит принцип, напоминающий процессы самоорганизации в природе – способность к генерации сложной структуры из простых правил. Ключевым элементом является использование ‘Текстового Управления Генерацией Изображений’ (Text-to-Image Conditioning), позволяющего пользователям направлять процесс создания трёхмерного мира посредством естественного языка. Это подобно тому, как нейронные сети, обученные на огромных массивах данных, способны понимать и интерпретировать семантические связи, преобразуя текстовые запросы в визуальные образы.

Непосредственной генерацией разнообразных и детализированных сцен служит модель TRELLIS, использующая в своей основе ‘Диффузионные Модели’. Эти модели работают по принципу постепенного добавления шума к изображению, а затем – обратного процесса – удаления шума, что позволяет создавать реалистичные и правдоподобные изображения. Этот процесс напоминает формирование узоров в биологических системах – например, образование кристаллов или развитие фрактальных структур.

Важным аспектом системы является использование ‘Неконтролируемого Обучения’ (Unsupervised Learning). Это позволяет системе обнаруживать закономерности и генерировать реалистичные окружения без явной разметки данных. Подобно тому, как живые организмы учатся на собственном опыте, система WorldGrow способна извлекать знания из необработанных данных, создавая всё более сложные и правдоподобные виртуальные миры. Система самостоятельно выявляет статистические связи и генерирует контент, не требуя вмешательства человека.

WorldGrow генерирует высококачественные, непрерывные 3D-сцены с реалистичными и связными текстурами, превосходя современные подходы к генерации бесконечных сцен и методы генерации внутренних пространств, а также базовую модель TRELLIS.

WorldGrow генерирует высококачественные, непрерывные 3D-сцены с реалистичными и связными текстурами, превосходя современные подходы к генерации бесконечных сцен и методы генерации внутренних пространств, а также базовую модель TRELLIS.

Сочетание этих трёх элементов – текстового управления, диффузионных моделей и неконтролируемого обучения – позволяет системе WorldGrow создавать бесконечно расширяющиеся трёхмерные миры с беспрецедентным уровнем детализации и реализма. Этот подход открывает новые возможности для создания виртуальных сред, которые могут использоваться в различных областях, от видеоигр и виртуальной реальности до архитектурного проектирования и научных симуляций.

Исследование, представленное авторами, демонстрирует впечатляющую способность генерировать бесконечно расширяющиеся 3D-миры, опираясь на принцип построения сцен из отдельных блоков. Этот подход напоминает слова Дэвида Марра: “Построение репрезентаций — это не просто копирование данных, а создание абстракций, которые позволяют эффективно рассуждать о мире.” Подобно тому, как Марр подчеркивал важность абстракций для понимания сложных систем, авторы WorldGrow используют концепцию “scene blocks” как способ абстрагирования и повторного использования 3D-контента, позволяя создавать сложные и когерентные сцены, масштабируемые до бесконечности. В частности, coarse-to-fine генерация, описанная в статье, является ярким примером такого построения иерархических репрезентаций, что соответствует идеям Марра о многоуровневом анализе.

Что дальше?

Представленная работа, безусловно, демонстрирует впечатляющий прогресс в области бесконечной генерации 3D-миров. Однако, как часто бывает, решение одной задачи неизбежно высвечивает новые. Авторы успешно используют предварительно обученные 3D-приоры и блочный подход, но вопрос о том, насколько эти "блоки" действительно универсальны и способны ли они адекватно описывать всю сложность реального мира, остаётся открытым. Воспроизводимость результатов, а не только метрики качества, должна стать ключевым ориентиром для будущих исследований.

Особое внимание следует уделить проблеме согласованности при масштабировании. Создание локально когерентных блоков – это одно, а обеспечение их бесшовной интеграции в бесконечно расширяющееся пространство – задача принципиально иного порядка. Необходимо исследовать, как можно использовать механизмы самоорганизации и обратной связи, чтобы гарантировать глобальную согласованность генерируемых миров. Более того, стоит задуматься о том, как интегрировать в процесс генерации не только визуальную информацию, но и физические законы, чтобы создать действительно правдоподобные и интерактивные среды.

В конечном счёте, создание бесконечного 3D-мира – это не просто техническая задача, но и философский вызов. Понимание системы требует исследования её закономерностей, а не только манипулирования параметрами. Визуальные данные раскрывают мир, если их интерпретировать через строгую логику и креативные гипотезы. И пусть "бесконечность" остаётся недостижимой целью, сам процесс её поиска может привести к неожиданным открытиям.


Оригинал статьи: https://arxiv.org/pdf/2510.21682.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Показать полностью 4
5

Воссоздал сцену из фильма "Невероятная жизнь Уолтера Митти"

Создал сцену для симуляции кинокамеры. Результат на 3-. Но в целом это норм. Буду делать дальше...

Рендер анимации

Закулисье

Закулисье

Показать полностью 3

Собрал космическую Киносцену

В целом результат хороший, однако некоторые моменты меня не устраивают. А конкретно: звездные поля, текстура материков и непонятный шум на планете в видео. Как промежуточный этап тестирования выглядит хорошо. А вы что скажете?

Рендер сцены

Контур материков собрал в Фотошопе, вывел ЧБ карту в Gaea и в ней уже собрал основной вид континентов. А в Blender уже натянул на сферу. 

Контур материков собрал в Фотошопе, вывел ЧБ карту в Gaea и в ней уже собрал основной вид континентов. А в Blender уже натянул на сферу. 

Показать полностью 3
5

Воссоздал сцену из фильма "Невероятная жизнь Уолтера Митти"

Создал сцену для симуляции кинокамеры. Результат на 3-. Но в целом это норм. Буду делать дальше...

Показать полностью 3
11

Что может ИИ сегодня

Быстрое ревью текущего этапа прогресса разных text-to-video моделей.

Мои знакомые до сих пор не верят в способности AI.

Показываю чему научились нейросети в эйайтишке

Видео 1. Hailuo 02

В промпте прямо указывалось панорамирование сцены, держать как можно больше людей в кадре:

Видео 2. Grok Imagine

Грок - ии от твиттера. Обновился только позавчера. Как результат:

Видео 3. Vidu Q2

Демка для любителей аниме. В стиле Borderlands графики.

Видео 4. Снова Hailuo 02

Еще один пример динамичной сцены:

Видео 5. Kling 2.5

Один из старых игроков ИИ рынка. Также дождался апдейта:

Если вам зашла подборка ставьте плюс. Не зашла - минус.

Напишите, что вы думаете о будущем развитии ИИ?

Показать полностью 4
Отличная работа, все прочитано!