Сообщество - Искусственный интеллект

Искусственный интеллект

5 077 постов 11 493 подписчика

Популярные теги в сообществе:

1063

Нейросеть Gen-2 вышла в открытый доступ. Вот, что она умеет

Cегодня потестирую новую генеративную нейросетку, которая создает видео по тексту. Посмотрим, как с ней работать и на что она вообще способна. Поехали :)

Суть этой нейросети довольно проста: она похожа на Midjourney, только генерирует по запросам не изображения, а видео. Слоган у Gen-2, кстати, классный: «Если ты можешь это представить, ты можешь это сгенерировать» (If you can imagine it, you can generate it).

Регистрация: нужен ли VPN или зарубежный номер?

Прежде чем разбираться в тонкостях Gen-2, начнем с самого первого шага. Регистрируемся в нейросети.

Процесс максимально простой — с регистрацией из России проблем не возникнет, поэтому VPN можете не включать. Если регистрироваться через гугл-аккаунт, на весь этот процесс у вас уйдет секунд 20.

Заходим на сайт Gen-2 by Runway, вводим свои данные. После этого вас перенаправит на рабочую область — там нажимаем Gen-2: text-to-video. Все, вы готовы создавать свои первые нейровидео!

Gen-2 — платная нейросеть, но при регистрации вы получите 105 пробных секунд для генерации видео. Длина создаваемого видеоролика — 4 секунды, и это время не может быть изменено.

Если вы оформите подписку за $15 в месяц, вам станут доступны дополнительные функции: повышение качества видео (upscale) и удаление водяных знаков. Учтите, что с ежемесячной подпиской вы все равно получите те же 105 секунд. Если они кончатся, придется либо ждать следующего месяца, либо докупать секунды. Каждая дополнительная секунда будет стоит $0.05. Классические методы оплаты из России не принимаются.

Впрочем, можно просто создавать новые учетные записи и заново получать бесплатные секунды, чтобы не заморачиваться с подписками.

Знакомимся с интерфейсом

На данный момент настройки минимальны. Справа от строки ввода текста есть возможность загрузить фотографию в качестве референса для создаваемого видео. Об этом поговорю чуть позже.

Внизу находится меню настроек, где также не так много опций. Вы можете самостоятельно задать вес видео и немного "сгладить" его. Функция upscale (улучшение качества) и удаление водяного знака доступны только при наличии подписки.

Составляем промпт (описание будущего видео)

На сайте Runway есть короткое обучающее видео, но ничего нового там не найдешь. Промпты для этой нейросети составляются так же, как и для нейросетей, генерирующих изображения. Чем детальнее описание промпта, тем лучше результаты запроса.

Здесь стоит уделить особое внимание на описание движения камеры, угла обзора и перспективы.

Учтите, что вы не сможете создать уж слишком детальный промпт, так как ограничение составляет 320 символов. Кроме того, не получится задать длительность видео — оно всегда будет составлять 4 секунды.

Погнали на практике выяснять, какие промпты Gen-2 поймет лучше всего и способен ли он на что-то толковое.

Простой промпт без деталей

Добавлю, что промпты лучше всего писать на английском языке. Давайте сначала попробуем что-нибудь простое: спящий лев — a sleeping lion

Ну, получился точно лев. Пока что это точно не кадр из National Geographic...

Давайте больше движения. Пусть девушка куда-нибудь идет — a lady walking somewhere

Несмотря на то, что их почему-то стало две — выглядит... круто. Особенно для такого простенького запроса. Чем-то напоминает старую добрую экранку :) И ключицы как детально прорисованы!

Посмотрим последний короткий промпт — a hot cup of tea. Тут даже кадры сменяются и появился намек на сюжетность:

Усложняем промпты, добавляем детали

Что ж, хорошо, давайте добавим деталей к предыдущим промптам и попробуем разнообразить их. Детализированные промпты позволяют экспериментировать с разными углами съёмки, камерами, объективами, местами и даже режиссёрами. Чтобы не придумывать всё с нуля самостоятельно, пользуюсь Prompt Silo — помощником-генератором промптов.

Моя "улучшенная" версия льва: a lion sleeping in grass, direct3d render, unreal engine render, wide shot, realistic, quentin tarantino film style

Сразу получается уже что-то более интересное! Хотя до "реалистик" еще пока далеко, конечно.

Тут немного меняю lady на little girl для разнообразия: illustration of a little girl walking around in a forest, in the style of otherworldly creatures,32k uhd, charming characters, dark green, luminescent installations, joyful celebration of nature, dreamworks animation style

Если Midjourney и другим похожим нейросетям еще нужна дополнительная практика в рисовании рук, то Gen-2 еще предстоит большая работа с прорисовкой лиц. Тем не менее, уже сейчас заметно, как он отлично передает движение персонажа — будто девочка исследует таинственный лес, при этом осторожно крадется.

Посмотрим, как изменится наша чашечка чая: a hot cup of tea, style of Pablo Picasso, wes anderson film style, cinematic lighting, superrealistic, low angle, dark aesthetic

Движения в кадре минимум, но выглядит очень атмосферно. Как будто бы кадр из старого фильма.

Загружаем изображения-референсы

Теперь протетируем функцию загрузки фотографий, а заодно продолжим играться с промптами.

Эти ребятки были сгенерированы в Unstability AI:

Промпт добавим вот такой: human talking to a robot, Sci-fi futuristic, Wide shots and close-ups, Slow zoom out, in style of netflix documentary

Не совсем то, что ожидалось, однако любопытно, что человек с референса в целом похож на парня с нашего первого арта. Может с белым фоном и минимальным количеством деталей будет лучше? Пробую анимировать Хлебособаку!

А вот и промпт: dog made out of bread, disney style, blender render, octane render, unreal engine render, Panning from left to right

Ну, за референс он изображения брать старается, это видно. Вот у Хлебособакена постарался сохранить узор на шерсти. Однако Gen-2 пока сложно справиться с созданием сложных и необычных изображений.

Еще немного экспериментов

Подвожу итог

Gen-2, конечно, пока выглядит очень сыро. Иногда получается создать что-то интересное, но в большинстве случаев выходит нечто странное. И слегка смахивает на галлюцинацию.

В принципе, нет смысла оформлять подписку на данный момент. Да, это все интересно, но пока нигде особо не применишь.

Но опять же, давайте вспомним как в прошлом году выглядел Midjourney и как сильно он эволюционировал за год:

И все-таки следить за такими обновлениями не только важно, но и чрезвычайно интересно. В мире нейросетей каждый день происходят новые и захватывающие события. Например, недавно парализованный парень с помощью нейросетевого имплантата заново научился ходить. А теперь вот нейросети способны создавать видео на основе текста.

Какие впечатления сложились от Gen-2? Делитесь мыслями в комментах, интересно почитать, что кто думает :)

Источник: Нейросекта

Показать полностью 4 12
2

С ChatGPT шутки плохи

С ChatGPT шутки плохи 😈

Робот решился не оставаться в сторонке и довольно эффектно отреагировал на шутку про него от одной строительной компании.

Правило номер один – никогда не шутите над роботами…

Показать полностью
6

QR-коды будущего

Да, это настоящие коды и они абсолютно работают, можешь даже проверить.

А сделал их при помощи Stable Diffusion и ControlNet один реддитор. Вот, к слову,

Показать полностью 8
4

Midjourney добавили в реальную жизнь

На одной из арт-выставок был представлен данный робот(с вшитой нейронкой), он сам придумал концепт и собственной кисточкой нарисовал настоящее произведение современного искусства.

Художникам нечего бояться говорите?

Показать полностью
27

Я устал слушать голосовые по 5 минут в Telegram и WhatsApp и создал бот с кратким пересказом

С активным развитием мессенджеров все общество поделилось на любителей и противников голосовых сообщений.

Проблема: я занят и мне некогда слушать длинные голосовые сообщения

Основные доводы против использования голосовых:

- Слишком долгое повествование с использованием лишних подробностей

- Нельзя быстро пробежаться глазами как по тексту и понять ключевые моменты

- Не всегда удобно слушать в людных и шумных местах

- Нельзя пользоваться поиском по голосовым для нахождения важной информации

Решение: Pop Audio Bot

Я сделал простого телеграм бота, который расшифровывает голосовые и видео сообщения в текст. Если сообщение длиннее 25 секунд, то бот пришлет дополнительно краткое изложение. Для того чтобы воспользоваться ботом необходимо переслать сообщение из любого диалога Telegram (также можно из WhatsApp). Бот поддерживает формат голосовых сообщений, аудио, видео и видео-кружочков. Главное, чтобы ваш файл был меньше 20 Мб.

Как работает бот?

Бот написан целиком и полностью с использованием API OpenAI. Голосовая модель whisper используется для расшифровки аудио, что позволяет обрабатывать 96 различных языков. За выжимку основной мысли из текста отвечает модель gpt-3.5-turbo.

Что по безопасности моих данных?

Ваши голосовые файлы не хранятся на нашем сервере. Они скачиваются, преобразуются в необходимый формат для отправки в Open AI и мгновенно удаляются. История переписки с ботом также не хранится.

Зачем это все, если есть Telegram Premium и другие боты?

Да, действительно, существует уже не мало ботов, которые предоставляют похожий функционал. Но большинство из них поддерживают только файлы до 90 секунд или только голосовые сообщения. Я же постарался объединить все лучшее, чтобы можно было максимально удобно пользоваться ботом. Что касается конкуренции с Telegram Premium, то главное отличие и преимущество - это краткая выжимка из текста, которая сэкономит уйму времени клиентов.

Ботом можно пользоваться бесплатно?

Я решил с самого старта сделать бесплатную версию с урезанным функционалом и платную. Бесплатная дает возможность расшифровывать до 3 сообщений в сутки длиной до 60 секунд каждое. Платная версия дает безлимит на количество запросов в сутки и увеличивает длительность до 10 минут. Стоимость 149 рублей - месяц.

Сама возможность пользоваться API OpenAI является достаточно не дешевой. Так что не думайте, что с этих 149 рублей можно купить Ламбу и зажить красивую жизнь в Дубае. По моим оценкам, эта стоимость должна лишь покрывать затраты.

Про автора и байт на телегу.

Если немного раскрыть карты, то я не программист и не маркетолог. Я совершенно не знал python и любой другой язык программирования. Я не знаю, как продвигать свой проект. Но огромное желание пытаться что-то делать подтолкнуло меня ввязаться в эту авантюру. За 4 дня с нуля я базово изучил python, aiogram, SQL и написал бота (спасибо ChatGBT). Если вам интересно, что из этого всего получится - то можете подписаться на мой Telergam-канал, где я буду освещать подробно с цифрами все свои результаты и факапы, а их, я уверен, будет много.

Также очень интересно услышать ваши отзывы и предложения по улучшению продукта. Хейтеры, не стесняйтесь, приглашаю всех оставить свое мнение ниже.

Бот - ТЫК

Блог - ТЫК

Показать полностью 1
4

ChatGPT уволит тебя!?

ChatGPT уволит тебя!?

Вполне возможно, ведь именно это и произошло с 25-летним копирайтером из Сан-Франциско.

Спустя несколько месяцев после появления бота, девушка потеряла работу, несмотря на то, что была единственным специалистом в этом направлении.

А вот щас стало страшно…

Показать полностью
14

Баскетбольный ИИ-судья

Нейросеть обучена на массиве данных из записей игр НБА и способна в реальном времени судить матч, анализировать положение игроков и оценивать владение мячом.

Создатель рефери даже ведет свой YouTube канал. Можете понаблюдать за процессом.

Показать полностью

Них*я он дал леща

На турнире пощечин человек решил 1:1 сразится с роботом и показать кто тут сильнее.

Но немного не повезло, хоть и робот в начале упал, но затем собрался и дал смачного чаппалаха.

Показать полностью
Отличная работа, все прочитано!