Сообщество - Искусственный интеллект

Искусственный интеллект

5 076 постов 11 493 подписчика

Популярные теги в сообществе:

7

Как с нейросетью генерировать видео — Новый бесплатный ИИ инструмент для создания видео

Runway, только бесплатно.

Text-to-video для Stable Diffusion

Инструкция и Файлы тут

zeroscope_v2_XL - это модель видео, основанная на Modelscope, которая способна генерировать видео высокого качества с разрешением 1024 x 576 без водяных знаков.

Для обучения этой модели использовались 9 923 клипа и 29 769 помеченных кадров с разрешением 1024 x 576 и скоростью 24 кадра в секунду.

Модель zeroscope_v2_XL специально разработана для увеличения контента, созданного с помощью модели zeroscope_v2_576w с использованием технологии vid2vid в расширении 1111 text2video от kabachuha. Использование этой модели для увеличения контента позволяет создавать более качественные композиции с более высоким разрешением, что позволяет более быстро исследовать контент в разрешении 576x320 (или 448x256) перед переходом к рендерингу с высоким разрешением.

Для использования zeroscope_v2_XL с расширением 1111 text2video вам необходимо скачать файлы из папки zs2_XL и заменить соответствующие файлы в директории 'stable-diffusion-webui\models\ModelScope\t2v'.

Так что сперва понадобится установить расширение для text2video

Ссылка на Git

А если у вас ещё нет Stable Diffusion

То стоит начать установку с веб интерфейса для него

Рекомендации по увеличению разрешения:

Для увеличения разрешения рекомендуется использовать расширение 1111 text2video. Оно работает наилучшим образом при разрешении 1024 x 576 со степенью снижения шума между 0.66 и 0.85. Не забудьте использовать ту же подсказку, которая использовалась для создания исходного клипа.

Известные проблемы:

Рендеринг при более низком разрешении или менее чем 24 кадрах в секунду может привести к неоптимальным результатам.

Показать полностью

Егор [Нейро]Летов — СМЕРТОВИЗОР (нецензурная лексика)

Всё ещё с лёгким акцентом, но "хой" уже звучит почти как его родной. На этот раз в основу легла песня Михаила Елизарова "Смертовизор". Неоднозначная, панковская, свободная. Описывает воображаемые события в воображаемом мире. Посему все совпадения случайны. А Москва... так Москва и в Айдахо есть. ХОЙ!

Мой канал с руководствами и моделями для нейрокаверов в Telegram

Показать полностью
689

Продолжение поста «ChatGPT-4 и ChatGPT-3.5 в 1 клик на вашем ПК. Работает без VPN»2

Итак, после огромного количества самых разных комментариев, хотел бы прояснить некоторые моменты, а заодно и расскажу о новой версии программы.

1) В программе нет GPT-4, это обман.

Оказалось, что да. Приношу извинения, что невольно принял участие в этом обмане. После кучи комментариев я полез изучать код и понял, что там стояла "заглушка", поэтому при выборе модели, никакого выбора не было. Автор оригинального кода, к сожалению соврал. В данный момент я самостоятельно ищу решение, например, реализовать этот режим через Bing AI. Но, а если вы хотите, чтобы бот использовал актуальную информацию - включайте ему доступ в интернет, после этого его база знаний при ответах сильно расширится.

Продолжение поста «ChatGPT-4 и ChatGPT-3.5 в 1 клик на вашем ПК. Работает без VPN»

Например, на этом скриншоте ChatGPT рассказывает вещи, которые в рамках своего датасета он знать в принципе не может.

2) Почему ты не выложишь исходники на гитхаб? Ты рассылаешь вирусы?

Ну, я банально не думал, что пост вызовет такой эффект. Что же, исправимся. Ловите Github. Я даже прикрутил установку и запуск в 1 клик, разве что Python придется все таки установить. Ну, а тем кто хочет всё-таки портативную версию - рекомендую заглянуть в релизы.

3) А будет сборка для MacOS / Linux?

Я попробую сделать, хотя и не представляю зачем нужен Portable на этих ОС. Может, вам подойдет просто "запуск в 1 клик"? Так было бы проще.

Теперь хочу поговорить с вами об обновлении. Я пытаюсь сам продолжить развитие проекта, и мною было добавлено:

  • Новая модель ChatGPT-3.5-16k-Turbo. Это дообученная модель 3.5 с увеличенным контекстным окном до 16000 токенов, но ввиду особенностей работы программы (у нас все таки доступ к ChatGPT получен путем реверс-инжиниринга), ее функционал будет ограничен.

  • Новые режимы чата. Я добавил генераторы промтов для MidJourney и Stable Diffusion, а также виртуальных ассистентов - Программиста и Редактора. В будущем режимы будут меняться и дополняться.

Скачать обновление вы можете на Github и Яндекс Диск. Ну, а будущие новости о проекте, вы сможете в моем Telegram канале.

Показать полностью 1
3

ChatGPT троит (делает ошибки в расчетах)

Для ЛЛ: бот в телеграмме, который якобы с gpt 3.5 turbo - критично ошибается в расчетах, делая грубые расчеты. По одной и той же задаче делает разные ответы с большой погрешностью. Ответа на свою задачу я от этого бота добиваюсь 3 день, и не уверен в полученных ответах.

Началось всё с того, что на днях за обедом тесть поделился задачей, которую они решали в школе без калькуляторов: на первой клетке шахматной доски разместили два зерна риса, на второй - четыре, на третьей - 8 и т.д.

Они посчитали, что зерно риса в такой прогрессии с шахматной доски заполнит поезд, длина которого превысит расстояние до луны.

На дворе 21 век, развитие ИИ, вот и решил я пообщаться с ChatGPT, чтобы узнать точную длину такого поезда. Я не стал искать сложных путей через регистрацию, подписку, VPN и т.д., поэтому вбил в поисковике телеги название нейросети и тыкнул в первого попавшегося бота. Может поэтому у меня не задалось общение с ИИ и это не настоящий ChatGPT, но бот заверил меня, что использует gpt-3.5-turbo.

Задал условия задачи с вопросом сколько вагонов риса можно собрать с этой доски. Бот посчитал количество зерен в виде прогрессии, и добавил, что это значение в вагонах. При расчете прогрессии в первую клетку почему то попало не 2 рисинки, а 1. Я потом повторно уточнял это решение, так как начал сталкиваться с ошибками в расчетах. Формулу прогрессии выдал такую же, но в описании в первой клетке уже было 2 рисинки.

Далее начал уточнять сколько зерен риса в одной тонне, сколько тонн в вагоне и тд

И вот тут первая ошибка, но я это узнал только на следующий день. Оказывается, в одном кг около 45 000 зерен, соответственно в тонне их около 45 млн.

Продолжил пытать бота о длине поезда, с кривыми данными. И купился еще раз - на скрине выше можно было увидеть явную неточность расчетов - 80 миллиардов метров превратились в 80 тысяч километров. Таким образом, ИИ посчитал, что 1 км = 1000 000 м.

О том, что число из прогрессии неверное я узнал на следующий день. Обманувшись поведал тестю, о том, что ИИ решил мне эту задачу в считанные минуты, и оказалось, что длина поезда менее двух обхватов экватора, а это меньше расстояния до луны. Тесть тоже купился, поверив расчету ИИ, куда нам тягаться с высокими технологиями.

А я продолжил мусолить тему задачи с ИИ, докопался до поезда - эта хрень очень умело юлит.

Короче говоря, эта хрень в телеге неправильно считает, в последовательных расчетах берет условные цифры с потолка. Например длина вагона то 20 м, то 15 м, средний вес зерна риса тоже в расчетах меняется, то 0,03 г, то 0,02 г, нули подрезаются, это же критично при расчетах.

Он посчитал мне, что в вагоне цистерне объемом 112 кубов помещается 114 млн. тонн риса.

Такие большие расхождения, ну хз.

Вывод: бот в телеграмме пиздабол.

Правильный ответ на задачу до сих пор не получен. Так на один и тот же вопрос получаю разные расчеты.

Показать полностью 7
309

Ускоряем генерацию в Stable Diffusion с 4,5 минут до 14 сек

Я её уже упоминал на своём канале распределённую сеть Stable Horde, с помощью которой можно ускорить генерацию в Stable Diffusion в разы. Время показать её в действии. Особенно это зайдёт тем, у кого старое/слабое железо.

Что такое распределёнка — это сеть компьютеров по всему миру, которые могут делиться своими мощностями, чтобы ускорить генерацию контента. Когда вы нажимаете Generate ваш запрос по кусочкам разлетается на множество машин. Каждая из них будет обрабатывать свою часть картинки, а к вам придёт уже готовое изображение целиком.

Через Stable Horde можно генерить не только картинки, но и текст, голос, а также я думаю скоро сюда добавятся видео и музыка.

У проекта открытый исходный код, все репозитории можно посмотреть. В статистике на сайте видно, что он пользуется популярностью:

  • Сгенерировано 65 млн изображений и 10 млн текстов

  • Средняя скорость генераций 54 Мегапикселя/сек, а текста 674 токена/сек

  • Обработано 843 Терапикселя

Сервис бесплатный, но генерация в порядке очереди. Чтобы ускорить процесс, просто регаетесь, берёте API ключ, вставляете его в автоматике во вкладке с настройками Stable Horde и вперёд.

Для генерации изображений через Stable Horde есть разные веб-интерфейсы (остальные на сайте) и приложения как под Android, так и iOS (раз и два). Для генерации текста есть только веб-клиенты. Мне больше всего понравился Agnaistic как по количеству функций так и по интерфейсу.

Помимо этого для Stable Horde есть много инструментов. Боты:

Плагины ускоряющие генерации в:

Актуальные ссылки на всё смотрите на сайте Stable Horde.

1) И вот как раз про расширение для A1111 мы и поговорим. Для начала, поставим его. Это можно сделать зайдя в Extensions —> Available —> нажав Load from —> в поле поиска вбив Horde. Жмём Install напротив опции Stable Horde Client.

Если у вас хорошая видюха с 4+ Гб RAM вы можете поставить и Stable Horde Worker, чтобы помогать генерить другим людям. За это вам начисляются баллы в KUDOS. Так вы поддержите сообщество и получите приоритет в очереди на генерации.

2) Когда поставили, идите в Settings и перезагрузите интерфейс нажав Reload UI.

У вас появятся две новые вкладки Stable Horde Interrogation и Stable Horde Settings. Первая нужна, чтобы получать из картинок по ссылкам в интернете промт, а вторая для настроек и конкретно указания API ключа.

3) Сам API ключ нужен, чтобы иметь приоритет при генерациях. Получить его можно зарегистрировавшись на сайте проекта. Причем регистрация заключается просто в указании Display Name, после чего отобразится API ключ, копируем его.

Учтите, что сайт не хранит ваш API ключ и его лучше сохранить где-то отдельно, или залогиниться сначала аккаунтами Google, Discord, Github. Это важно для тех, кто хочет, чтобы KUDOS, начисленные за раздачу мощностей у них не пропадали.

4) Скопировав API ключ, идём в Stable Horde Settings и вставляем его в поле API key. Далее нажимаем Apply Settings.... и по сути всё, можно генерить.

Для этого идём в раздел txt2img и в Scripts выбираем Run on Stable Horde, а также целевую модель и эффекты для постобработки.

Что означает каждое поле:

  • Model — в стиле какой модели вы хотите генерить. Чем больше цифра рядом с названием, тем больше воркеров её поддерживают, и тем быстрее будет генерация.

  • Share With LAION — возможность поделиться сгенерированным с LAION, которые помогали создавать Stable Diffusion. Так вы помогаете создавать публичные датасеты.

  • Post processing — какие эффекты будут применены к картинке. Есть апскейлинг (повышение разрещения) и face restoration (улучшение лиц). Можно применять цепочкой.

На видео в начале поста я сгенерил сначала локально на своей видюхе на ноуте GTX 1050 с 2 Гб VRAM без Stable Horde и на это ушло 4 м 33 сек, а потом через распределёнку.... и результат уже стал 14 сек. Разница почти в 20 раз!

Да оно будет прыгать от количества воркеров в сети, выбранной модели, настроек генерации, но это в любом случае буст и меньше необходимости покупать новое дорогостоящее железо. Чем больше будет воркеров, тем быстрее можно будет генерить. А с учетом того, что Microsoft, Nvidia, и AMD начали делать движения в сторону оптимизации для генераций (ONNX модели, DirectML, драйвера), а отец Stable Diffusion, Эмад Мостак, сказал на недавнем интервью, что вложил свои кровные в языковую модель, заточенную под кластеры, думаю эта тема будет развиваться.

YouTube обзор

Сайт Stable Horde

Расширение для A1111 (Client)

Расширение для A1111 (Worker)

Больше интересностей у меня в телеге Psy Eyes

Показать полностью 7
Отличная работа, все прочитано!