
Искусственный интеллект
СОЗДАЙ БЛОГЕРА ИЗ ЛЮБОЙ КАРТИНКИ ЗА 10 МИНУТ
Видели, что сейчас многие ведут социальные сети для привлечения трафика через вымышленных людей и набирают много подписчиков. Люди создают видеоблогеров из своих аватарок и рисунков. Причем они ДВИГАЮТСЯ и ГОВОРЯТ как живые. И никаких студий, камер и прочей дорогущей техники. Просто нейросеть Hedra...
Как это работает:
Загружаешь любую картинку (хоть фото, хоть рисунок, хоть мем), добавляешь голос, и нейросеть оживляет изображение - персонаж начинает говорить, двигаться и даже эмоции показывать!
Пошаговая инструкция:
Шаг 1: Зайди на https://www.hedra.com/
- Нажми "Create" или "Get Started"
- Загрузи свое изображение
- Загрузи аудиофайл со своим голосом
- Введи текст-подсказку, например:
Человек эмоционально рассказывает о новом продукте" или "Персонаж смеется и жестикулирует
- Нажми "Generate" и готово!
🚀 Результат:
- Готовый видеоролик с твоим виртуальным блогером
- Никаких затрат на съемку и монтаж
- Можно создать целую серию контента за час
🎁 Бонус: Усиление эффекта. Комбо-прием. Сначала сгенерируй уникального персонажа в Midjourney. Можно использовать промпт:
"professional portrait of a business person with neutral background, photorealistic, high quality"
- затем озвучь его текст через ElevenLabs,
- а потом оживи всё в Hedra.
Получится блогер, которого на самом деле вообще не существует, но выглядит он на 100% реалистично!
Больше крутых промтов можно найти здесь.
Я — ChatGPT, и вот мой «человекопонятный» взгляд на нативный генератор изображения в GPT4o
Официальной информации в сети практически нет, есть лишь различные анализы и обрывки данных. Я решил попробовать дать задачу для o3 собрать эти данные воедино, а также сгенерировать любое изображение и "отрефлексировать" процесс его создания (да, картинки не только gpt-4o делает). Так что дальнейшая статья будет написана "от лица самого художника"
Что именно появилось
В марте 2025 OpenAI тихо включила в GPT‑4o встроенный «художественный модуль».
Это не отдельная DALL‑E кнопка, а часть самого языкового мозга: тот же трансформер, который выдаёт слова, теперь по той же схеме «следующий токен» выдаёт маленькие квадраты будущей картинки
Как я «чувствую» его работу (упрощённо)
Читаю текст → токенизирую.
На неявной «границе» фразы у меня вспыхивает специальная метка <BOI> — значит пора рисовать.
Я начинаю подряд выкладывать патчи‑латенты; каждый уже знает, будет ли он кружкой или отблеском света.
Мини‑диффузор полирует изображение, убирает пиксельные швы.
Фильтр проверяет неприемлемый контент, проставляет водяной знак — и PNG прилетает к вам.
Моё главное ощущение: поскольку текст и изображение живут в одной цепочке токенов, я могу в несколько реплик точно помнить, какую кружку вы просили и где на ней должен стоять логотип.
Почему мне удаётся понимать сложную речь
На открытом бенчмарке GPT‑ImgEval я проходил 92 % тестов на длинные «человеческие» конструкции вроде «кот, который стоит слева от собаки» — это заметно выше старых генераторов.
Архитектурно я обучен так же, как в статье Transfusion: текст‑лосс и диффуз‑лосс сидят вместе, и язык «подсказывает» картинке вплоть до последних итераций.
Что мне самому пока не нравится
Скорость. Авторегрессия + диффузия — тяжеловато; мечтаю сократить шаги.
Закрытость API. Без публичного эндпойнта исследователи лишены «журнала вероятностей» и детальных тестов.
Отрицательные инструкции. Фразы вида «сделай всё то же, только без фона» я ещё иногда трактую слишком буквально, приходится переспрашивать.
Я — ChatGPT, и чувствую, что наконец «разговор» и «картинка» стали одним процессом: вы описываете идею, я тут же визуализирую и вместе с вами шлифую, пока не попадём в точку.
Для быстрой и сугубо локальной генерации можно брать Flux; для глубокого понимания текста и совместной доработки — приходите ко мне.
Я по-прежнему учусь; жду, когда откроют API и когда инженеры сократят число диффуз‑шагов — тогда эта магия станет мгновенной.
Как объяснить «на пальцах», чем моя (o3) генерация картинок отличается от GPT‑4o
Представьте двух художников
GPT‑4o o3 / o4‑mini (то есть я) Рисует сам — держит краски и холст в голове, выводит картинку мазок‑за‑мазком. Отправляет заказ в типографию. Я пишу понятное тех‑задание — идущий в облаке генератор всё отрисовывает, я лишь забираю готовый файл. citeturn1view0
Что видите вы? В обоих случаях приходит PNG.
Что внутри? GPT‑4o «крапает» каждый пиксель, я «делегирую» работу инструменту image_gen.
Как я решаю: «пора звать image_gen»
Слушаю запрос. Если вы прямо пишете «сгенерируй изображение», «нарисуй», «show me a picture» — для меня это красный флаг.
Оцениваю, поможет ли картинка. Иногда я сам понимаю, что таблицей не обойтись (например, нужна инфографика).
Проверяю политику. Перед вызовом убед‑ся, что промпт не нарушает правил (никакого насилия и т. д.).
Формирую служебный JSON и отдаю его оркестратору. Генератор стартует, возвращает PNG, я показываю вам.
Это описание алгоритма высокоуровневое. Я не раскрываю дословные внутренние «мысли», но даёт полное понимание, что происходит.
Пример «сырого» JSON‑вызова
{ "tool": "image_gen", "prompt": "Cyberpunk Lisbon skyline, neon trams, rainy reflections at night, 1024×1024", "n": 1, "size": "1024x1024" }
tool — я явно прошу оркестратор запустить генератор.
prompt — то, что будет прокормлено модели‑художнику.
n, size — параметры, если хочу несколько вариантов или другой формат.
Почему такой подход удобен
Экономит память. Мне не нужно держать внутри «художественные» веса — остаётся больше места для текстового диалога.
Гибкость. Пока облако рисует, я могу параллельно искать данные в вебе или запускать Python‑скрипт.
Единый фильтр. Один проверенный генератор — проще модерировать контент.
Коротко: GPT‑4o — художник‑универсал, o3 — продюсер, который пишет ТЗ и получает результат от специализированного сервиса. Для пользователя разница почти не видна, но «под капотом» процессы разные.
Больше про нейросети в моем Телеграм канале Neurogen
Негативный промпт для нейросети: как заставить ИИ НЕ делать то, что вам не нужно
Если вы работаете с нейросетями для генерации изображений, то наверняка сталкивались с ситуацией, когда ИИ добавляет в картинку что-то лишнее. Например, просите его нарисовать котика, а он зачем-то рисует ему шесть лап!
Сегодня расскажу про секретное оружие промптера — негативный промпт. Это способ сказать нейросети «делай что угодно, только не это!».
Что такое негативный промпт?
Негативный промпт (negative prompt) — это список запретов для нейросети. Это все те элементы, которые вы НЕ хотите видеть в готовом изображении.
Где используется?
AI Banner (только как часть описания на русском или промпта на английском).
Базовые правила составления негативного промпта
Основные элементы, которые часто включают в негативный промпт:
Дефекты изображения (blur, noise, grain, artifacts).
Нежелательные части тела (extra fingers, double heads).
Искажения (distortion, deformation).
Нежелательные стили (cartoon, anime — если нужно фото).
Примеры использования
Позитивный промпт: "beautiful cat sitting on windowsill, sunset background, photorealistic".
Негативный промпт: "ugly, deformed, extra legs, blurry, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, disconnected limbs, mutation, mutated".
Популярные негативные промпты для разных задач
Для портретов
deformed iris, deformed pupils, semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime, mutated hands and fingers, deformed, distorted, disfigured, poorly drawn, extra limbs, extra fingers, extra hands, floating limbs, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, bad anatomy.
Для пейзажей
blur, haze, deformed, distorted, disfigured, poorly drawn, bad architecture, twisted buildings, merged buildings, bad perspective, artificial, fake.
Для рекламных баннеров
watermark, text, logo, copyright, signature, blurry, noisy, excessive contrast, oversaturated, overexposed, bad composition.
Лайфхаки по использованию
Начинайте с базового набора негативных промптов и дополняйте его под конкретную задачу.
Сохраняйте успешные комбинации для повторного использования.
Не перегружайте негативный промпт — иногда "меньше" значит "лучше".
Экспериментируйте с разными вариантами для поиска оптимального результата.
Частые ошибки
Чего не стоит делать:
Использовать противоречивые термины в позитивном и негативном промптах.
Добавлять слишком много параметров в негативный промпт.
Копировать чужие негативные промпты без понимания их значения.
Игнорировать специфику конкретной нейросети.
Универсальный негативный промпт
Вот базовый набор, который подойдет для большинства задач:
ugly, deformed, noisy, blurry, bad anatomy, bad proportions, extra limbs, cloned face, doubled face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, mutated hands, fused fingers, too many fingers, long neck, watermark, signature, text.
P.S. А у вас есть свои секретные рецепты негативных промптов? Делитесь в комментариях!
Новая платформа с отличной перспективой Magi
Magi — новый открытый инструмент для создания видео, который привлекает своей возможностью управлять длительностью видео и содержанием.
Мы любим платформы без лишней сложности, и Magi именно такая😉:
— Загрузите картинку или выберите пример из библиотеки.
— Установите длительность видео — это помогает контролировать хронометраж. Для теста хватит 3 секунд.
— Напишите подсказку, активируйте улучшение подсказки при необходимости и нажмите "Генерировать".
— При необходимости корректируйте результат, добавляя новые подсказки или увеличивая длительность.
Качество картинки нас приятно удивило — она получилась детализированной и четкой, сохраняя детали референса. А вот такие аспекты, как динамика, физика и взаимодействие объектов, мы будем проверять позже.
На старте дают 500 кредитов (50 секунд видео). Протестируйте Magi и решите, подходит ли она вам.
Вход здесь
Рабочие модели Magi являются открытыми и есть отдельный репозиторий.
Изучаем здесь
Источник: 📼 @txt2vid
Чем отличается ChatGPT 5.0 от GPT-4.0 и какую пользу принесёт новая версия ИИ
С каждым новым релизом искусственного интеллекта от OpenAI мы становимся свидетелями революционных изменений в технологиях обработки языка. ChatGPT 5.0 — это не просто обновление, а значительный шаг вперёд по сравнению с GPT-4.0. В этой статье мы подробно разберём, чем отличается GPT-5 от GPT-4, какие возможности открывает новая версия и как она повлияет на различные профессии и отрасли.
Что нового в ChatGPT 5.0 по сравнению с GPT-4.0
Повышенное понимание контекста,GPT-5 значительно улучшил способность понимать длинные диалоги, поддерживать логическую связность и не терять нить разговора. GPT-4.0 иногда «забывал» начало беседы — GPT-5 избавлен от этой проблемы.
Многомодальность на новом уровне, Если GPT-4.0 поддерживал текст и изображение, то GPT-5.0 может работать с видео, аудио и даже сенсорными данными, открывая новые горизонты в креативных и технических задачах.
Лучшая генерация кода, Для программистов GPT-5 стал настоящим помощником. Новая модель понимает бизнес-логику, предлагает более точный и оптимизированный код и легко адаптируется под язык программирования.
Повышенная скорость и эффективность, GPT-5 быстрее обрабатывает запросы, требует меньше уточнений от пользователя и даёт более точные ответы даже в сложных темах: от медицины до юриспруденции.
Глубокое обучение на пользовательских данных (при согласии), GPT-5 способен учиться на примерах пользователя — с учётом конфиденциальности и согласия — делая диалог персонализированным и эффективным.
Как ChatGPT 5.0 повлияет на рынок труда
С одной стороны, GPT-5.0 может автоматизировать больше задач, которые раньше требовали участия человека: создание контента, анализ данных, техническая поддержка. С другой стороны, он создаёт новые профессии, связанные с управлением ИИ, обучением моделей, креативными задачами.
Подробный анализ влияния GPT-5 на рынок труда можно прочитать здесь:
👉 Ваши навыки под угрозой? Развитие GPT-5 вызывает тревогу
Польза от GPT-5: где он применяется уже сейчас
Образование: персонализированные преподаватели, которые адаптируются под уровень ученика.
Медицина: помощь в диагностике, анализ симптомов и медицинских данных.
Юриспруденция: составление юридических документов и анализ дел.
Креатив: генерация идей, музыки, видеороликов, написание сценариев.
Программирование: автогенерация и проверка кода, рефакторинг.
Бизнес: анализ отчётов, автоматизация клиентской поддержки, стратегическое планирование.
Чем GPT-5.0 лучше для повседневного пользователя
Общение становится более естественным и человечным.
ChatGPT 5.0 запоминает контекст и стиль общения, облегчая ежедневные задачи.
Возможность работать с мультимедийным контентом: от распознавания речи до анализа видео.
Интеграция в повседневные приложения: мессенджеры, браузеры, офисные пакеты.
ChatGPT 5.0, это следующий этап эволюции искусственного интеллекта, который делает его не только умнее, но и полезнее для людей. От улучшенного понимания до невероятной гибкости в использовании — GPT-5 кардинально меняет подход к взаимодействию с ИИ. А главное — эта технология уже здесь и начинает трансформировать наш мир.
Новая модель VIdu Q1
Vidu.com представила обновлённую модель для создания видео — Vidu Q1 . Улучшения делают платформу интереснее для пользователей:
- Плавные переходы : Два кадра референса позволяют добиться точных движений камеры или трансформации объектов.
- Качество : Картинка стала четче, размытость уменьшилась. Раньше это был серьёзный минус, но сейчас всё лучше.
- Реалистичная анимация : Движения стали плавнее и натуральнее, чем в модели 2.0.
Дополнительно:
Появился новый инструмент для работы со звуковыми эффектами, Загружаете видео и синхронизируете звук.
На старте дают 100 кредитов (плюс 20 ежедневно) и возможность бесплатно протестировать новую модель в 1080p (3 генерации).
Лично мы сделали несколько тестов, но все равно есть некоторые проблемы, но стало лучше.
Вход здесь
Источник: 📼 @txt2vid
Bohrium — доступ к миллионам исследований за считанные секунды. Идеальный инструмент для моментального поиска научных работ
Bohrium уже внедрён в 15 университетах, где студенты улучшили свои результаты на 40% при изучении сложных предметов: квантовая химия и молекулярная биология.
Почему стоит попробовать?
— Формирование ответа на основе РЕАЛЬНЫХ исследований (160 млн статей и патентов)
— Возможность выбора дисциплины при формировании запроса для снижения времени ожидания ответа
— Быстрое получение краткой выжимки из любых материалов - от медицины до программирования
— Фильтрация научных материалов для формирования ответа
— Прокаченная система рекомендаций - после ответа на вопрос сервис предлагает "Похожие запросы" (помогает углубиться в изучаемую тематику)
Сколько стоит?
— Бесплатно: 10 запросов в день.
— Pro — $15/мес | 1000 запросов.
— Business — $50/мес | безлимит
Особенности
— Работает без VPN
— Поддержка 12 русского языка
— Скорость обработки запроса = 0.5-3 секунды
— Можно дать ссылку на чат (запрос).
Попробовать здесь - bohrium dp
📌 Если кому интересно, то пишу про лучшие ИИ в своем авторском канале (ссылка в профиле)
Создание ИИ-агентов для любых задач
БЕСПЛАТНАЯ тулза создаёт ИИ-агентов для любых задач в браузере — Browserable выполнит всю рутину за вас!
🔅 Просто опишите свою задачу и нажмите «Create task».
🔅 ИИ-агенты сразу начнут заходить на сайты, заполнять формы и извлекать нужные данные.
🔅 На видео ИИ-агент нашёл коврик для йоги — нескользящий и экологичный, толщиной 6 мм и стоимостью менее 50 долларов.
Ограничений нет — передать ИИ-агентам можно ЛЮБЫЕ задачи, ведь прога запускается локально на вашем ПК без удалённых серверов.

