Ответ на пост «Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия»2
Оставьте образец голоса, пожалуйста!
Звонков и голосовух родственникам и знакомым точно не будет!
Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия2
Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.
Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.
Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.
И всё это с нативной поддержкой русского языка.
Как это работает
В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.
Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.
Работает очень быстро даже на старшей модели 1.7B.
Поддерживаемые языки
Qwen3-TTS работает с 10 языками:
Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский
Возможности
Синтез с готовыми голосами (CustomVoice)
9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.
Создание голоса по описанию (VoiceDesign)
Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.
Клонирование голоса (Voice Clone)
Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.
Multi-Speaker режим
Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).
Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.
Кому пригодится
Создателям контента — озвучка роликов, подкастов, стримов.
Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.
Аудиокнигам — разные голоса для персонажей.
Автоматизации — голосовые уведомления, IVR-системы, ассистенты.
Как попробовать
Онлайн-демо
Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.
Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS
Официальный GitHub
Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.
API
Официальное API от Alibaba для production-интеграции.
Портативная версия
Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:
Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU
Системные требования
NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти
20 ГБ свободного места на диске
Текущие ограничения
Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском
Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).
Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!
Бесплатные новинки от Elevenlabs
Кто не знает про Elevenlabs - срочно это исправлять, это многофункциональная платформа для работы со звуком. Есть собственный генератор звуков и голосов, студия нейродубляжа и многое другое!
Вот здесь собрала для вас посты про возможности Elevenlabs, а недавно они представили Voice Design - по описанию можно создать голос, тоже очень любопытная штука, посмотрите.
1. ElevenReader - бесплатное создание аудиокниг
Не так давно, я писала, что Elevenlabs с барского плеча выкатили приложение для бесплатного создания аудиокниг. Теперь сервис ElevenReader доступен и на сайте
Очень удобно, что может конвертировать в аудио популярные текстовые форматы - txt, epub, pdf и т.д.
Доступны 32 языка, включая русский.
И создать свою аудиокниг моно все так же абсолютно бесплатно!
Кстати, все видео я тоже перевела в Elevenlabs с сохранением голоса и интонации диктора. Это реально платформа для всего, что связано со звуком и голосом - все в одном месте)
2. Scribe для преобразования аудио в текст
Помимо того, что можно из текста сделать аудио, Elevenlabs сделали и наоборот, - выкатили сервис Scribe для точного преобразования аудио в текст. Сервис очень точно распознает речь
Имейте ввиду, что для работы потребуется иностранный айпи
Более того, заявлено, что справляется лучше Whisper V3 от OpenAI на 36,9% и Gemini 2.0 Flash на 5,6%. Как многие уже успели убедиться по нейродубляжу,Elevenlabs отлично определяет количество спикеров и различает их голоса. Добавляет маркеры для лучшего восприятия диалогов. А еще распознает без проблем “ээ” и прочие междометия, вздохи.
Работает просто - загружаете файл, но не тяжелее 100Mb, и сервис быстро преобразует аудиофайл в текст.
Очень удобно, что для субтитров сразу можно экспортировать файл в формате SRT, а еще расставить тайм-коды. Поддерживает 99 языков, включая русский.
Кстати, как вам мой голос на этом видео - в статье про бесплатный аналог ChatGPT? На самом деле, мне лень было записывать, я решила по-быстренькому напечатать текст, и Elevenlabs озвучил моим голосом)
Знаете что самое приятное в этой ситуации? Да, то, что можно на минимальном тарифе за 5 баксов в месяц быстро клонировать свой голос, например, скачать и скинуть свое голосовое из Вацапп)
Но я про другое) Несколько месяцев я Elevenlabs почти не пользовалась, ну так сложилось - были другие задачи 🤷🏻♀️ И я оставалась на тарифе за 5$. В какой-то момент я думала временно отключить подписку, но боги маркетинга были против, и вот я уже соглашаюсь 1 месяц за 1 доллар вместо 5 попробовать 🫣 В итоге сейчас мне активно понадобилась платформа чтобы сделать х2 по задачам, и и меня ждали накопленные кредиты 🥹 Даже на тариф подороже не понадобилось переходить, непотраченные кредиты не списывались каждый месяц, а копились, для меня приятное открытие, вдруг кому тоже будет полезно)
Там же кстати можно создать кастомный голос - кстати, этот пост тоже был озвучен подобным образом, а еще и про Napkin, а вы и не заметили) ну или не сказали
Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.
Так же вам может быть интересно:
А если вам не хочется заморачиваться, в боте Syntx -- это мини приложение в телеграм, есть все популярные модели в единой подписке, и их можно оплатить русской картой. - Процесс я показала на примере создания Нейрофотосессии со своим лицом
Конвертация аудио и видео в текст. Как сделать транскрипцию совещания и затем определить итоги совещания


Пост полезности, как сделать транскрипцию совещания и затем определить итоги совещания.
Помогут в этом инструменты высокой точности, которые переводят аудио или видео в текст. В сети расфорсился инструмент Transkriptor, который обещает расшифровать ваши аудио и видео с 99% точностью.
Я проверила на своем видео из прошлого поста, действительно, сервис точный, есть приложение, так что удобно использовать на совещаниях. Запись экрана тоже хорошо расшифровывает, можно скачать и загрузить файлы разных форматов. Там же на платформе есть ИИ.
А теперь к минусам Transkriptor:
Бесплатно подойдет для роликов до 2 минут, далее подписка от 20$ в месяц или 100$ за год, за это дается 2400 минут в месяц. Кстати, потом дают скидку и уже 10$ в месяц за все.
Я рекомендую сервис для профессионального использования, когда другие не справляются или для рабочих совещаний. Так же я вам подготовила бесплатную альтернативу, я и сама любитель сэкономить)
Бесплатная альтернатива:
Хорошие бесплатные возможности дает Yescribe.ai - бесплатно можно загрузить 3 файла в день по 30 минут и точность тоже 99%. Тоже около 100 языков, включая русский.
А потом я рекомендую транскрипцию встречи вставить в ChatGPT, чтобы он привел сумбурные записи в структурированную запись с четко определенными моментами по итогу совещания. А поможет вам в этом этот промпт 😉
Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.
Больше полезных, а главное проверенных сервисов для учебы, работы и бизнеса в моем Закрытом клубе. Там же мы учимся промптить, разбираемся в языковых моделях, помогаем друг другу с задачами. Смысл в том, что вы платите только один раз! Вам не нужно торопиться, пока подписка действует, вы можете учиться в своем темпе, и в любой момент задать вопрос в чате) А то всё быстро устаревает, а на постоянные обучения денег не напасешься, я это понимаю.
Создание голоса по текстовой подсказке в ElevenLabs. Мой обзор и советы
Давненько по меркам ElevenLabs они нас не радовали, вот недавно выкатили фишку -теперь по описанию можно создать своего персонажа, вернее голос. Функция называется Voice Design, вы можете задать характеристики голоса и персонажа - пол, возраст, высокий/низкий голос и т.д. ElevenLabs выдаст на выбор 3 варианта.
Как использовать:
Во вкладке слева Voices нажимаем кнопку Add a new voice. Затем выбираем Voice Design, описываем, каким должен быть голос персонажа, и пишем текст для озвучки, как я показала на видео.
Текст должен быть не короче 100 слов и не длиннее 1000 слов.
Мои рекомендации:
В самом начале создания голоса я вставила текст в 700 символов, в итоге возникла ошибка, а кредиты списались, я повторила процедуру - и итог тоже повторился 😁 Поэтому, чтобы не тратить свои нервы и кредиты, для начала используйте фразу от 100-150 слов. Так голос спокойно и без ошибок сгенерируется в трех вариантах, из которых вам надо будет выбрать понравившийся. А вот после того, как вы этот голос сохранили, можете использовать уже на длинных текстах.
Подпишитесь на
НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.Кстати, видео я тоже озвучила с помощью ElevenLabs - быстро клонировала свой голос даже не в профессиональном режиме, а на самом минимальном тарифе от 5$
Как бесплатно использовать Elevenlabs
Бесплатно на старте ElevenLabs дают 10 000 кредитов, которые вы можете использовать по своему усмотрению, так как там есть и дубляж видео на разные языки, и синтез голоса, и клонирование голоса, в общем, рекомендую ознакомиться с сервисом, в этом посте я сравнила его с другими сервисами.
Чтобы работать с ElevenLabs необходимо поменять свой ip, if you know what I mean ))
Вопросы Как оплатить нейросеть в РФ и как обойти блокировку разобрала в своем Закрытом сообществе Закрытый клуб НейроУчеба - где мы учимся, как использовать нейросети и делимся лайфхаками.
Silero: высокоточное распознавание и синтез речи на русском языке
Друзья, сегодня хочу поделиться с вами сервисом, который значительно упростит работу с аудио и текстом — Silero. Если вы создаете подкасты, видео или вам нужно быстро перевести аудио в текст, этот инструмент для вас. Тем более, что ElevenLabs заблокирован в РФ, и не все впн заходят на сайт.
Что может Silero:
Преобразует аудио в текст с высокой точностью, поддерживая русский язык и различные акценты.
Превращает текст в естественную голосовую озвучку. Идеально для создания аудиокниг, дикторских текстов и озвучки видео.
Обработка происходит быстро даже с большими объемами данных.
Можно бесплатно установить с GitHub. Если вы не знакомы с программированием, на сайте Silero есть веб-интерфейс для быстрого тестирования функций без установки дополнительных программ 😉
Более подробно в нейросети для Учебы и Работы мы погружаемся в Закрытом клубе Нейроучеба
Что крутого в Silero:
Проект с открытым исходным кодом, доступен для всех.
Оптимизирован для русского, учитывает нюансы произношения.
Легко интегрируется в ваши приложения и проекты.
Отлично подойдет для транскрибации интервью и создания озвучки для видео. Точность распознавания хорошая, а синтезированная речь звучит естественно и приятно для восприятия.
Подпишитесь на
НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.Топ 20 AI сервисов для создания контента для бизнеса
Итак, мой список нейросетей которые помогут в создании контента.
Сервисы по созданию фото контента для карточек товаров для маркетплейсов или вашего интернет магазина
1. Weshop.ai для одежды маст хев, сейчас номер 1 на producthunt. Много красивых ИИ моделей
2. 24tech.ai создает фоны для товара в 1 клик
3. Flair.ai похожий сервиc
4. express.adobe.com отлично подойдет для создания шаблонов карточек
Сервисы по созданию видео контента для карточек товаров с использование ИИ аватаров
Многие знают хейген и синтезию но на рынке я тестировал уже больше 20 таких сервисов, вот список, выбирайте
| Creatify.ai | Мой фаворит - Предлагает высококачественную озвучку голосом и 6 сценариев для озвучки с помощью ChatGPT. Отличается удобством использования и возможностью пакетного создания видео для всех карточек. |
| synths.video | Сервис для создания аватаров с использованием технологии Synthesia и генерации видео из текста. |
| synthesys.io | Платформа для создания синтетического медиа-контента, включая видео с виртуальными ведущими. |
| alethea.ai | Сервис, специализирующийся на создании интерактивных AI-персонажей и генерации контента с их участием. |
| synthesia.io | Популярная платформа для создания AI-видео с виртуальными ведущими на основе текстовых сценариев. |
| hourone.ai | Сервис для создания персонализированных видео с использованием искусственного интеллекта. |
| digitalhumans.com | Платформа для разработки и внедрения реалистичных цифровых людей для различных бизнес-применений. |
| aistudios.com | Студия, предоставляющая инструменты для создания AI-генерируемого видеоконтента. |
| movio.la | Сервис для создания объясняющих видео с использованием AI-аватаров и синтезированного голоса. |
| malivar.io | Платформа для создания виртуальных ведущих и персонажей с использованием AI-технологий. |
| d-id.com | Сервис, специализирующийся на создании говорящих портретов и анимированных аватаров. |
| arcads.ai | Отличается созданием очень реалистичных и живых AI-аватаров для различных применений. |
| colossyan.com | Предлагает создание собственных мега-крутых аватаров, отличается простотой использования и возможностью создания презентаций. |
| wonderdynamics.com | Позволяет в один клик заменить человека в видео на 3D-аватар, упрощая процесс создания спецэффектов. |
| deepbrain.io | Платформа для создания AI-видео и виртуальных ведущих с широким спектром применений. |
| Elai.io | Предлагает качественные аватары с интеграцией GPT-4 для более интеллектуального взаимодействия. |
| heygen.com | Позволяет превращать фотографии в видео-аватары, осуществлять перевод на другие языки с изменением артикуляции и создавать рилзы. |
| Swapface.org | Специализируется на замене лиц на фото и видео, а также на создании уникальных лиц с помощью AI. |
Сервисы озвучек текст в речь для видео
elevenlabs.io murf.ai cybervoice.io huggingface.co/spaces/ysharma/OpenAI_TTS_New Озвучивает всеми официальными голосами chatgpt





