Text-to-speech: истории из жизни, советы, новости, юмор и картинки — Горячее

Ответ на пост «Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия»⁠⁠2

20 часов назад

smallplushbear

Искусственный интеллект

Ответ на пост «Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия»⁠⁠2

21 час назад

Оставьте образец голоса, пожалуйста!
Звонков и голосовух родственникам и знакомым точно не будет!

2328

Nerual.Dreming

Искусственный интеллект

Говорилка Qwen3-TTS с поддержкой русского языка. Бесплатная нейросеть озвучит что угодно вашим голосом + портативная версия⁠⁠2

1 день назад

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке "текст → фонемы → звук" и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект "роботизированности" и каскадные ошибки генерации. Модель сохраняет интонации, эмоции и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: "молодой женский голос, игривый, с высоким тоном". Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice, но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS

API

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

Портативная версия

Я с каналом Нейро-Софт подготовил улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus

Системные требования

NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти
20 ГБ свободного места на диске

Текущие ограничения

Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале найдете версию с уже установленным env (окружением).

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!

Показать полностью 2 7

[моё] Нейронные сети Искусственный интеллект Синтез речи Озвучка Tts Qwen Open Source Windows Говорилка Text-to-speech Машинное обучение IT Видео Вертикальное видео Короткие видео Длиннопост

344

Neurosonya

Полезные нейросети

Бесплатные новинки от Elevenlabs⁠⁠

Серия Полезность

7 месяцев назад

Кто не знает про Elevenlabs - срочно это исправлять, это многофункциональная платформа для работы со звуком. Есть собственный генератор звуков и голосов, студия нейродубляжа и многое другое!

Вот здесь собрала для вас посты про возможности Elevenlabs, а недавно они представили Voice Design - по описанию можно создать голос, тоже очень любопытная штука, посмотрите.

1. ElevenReader - бесплатное создание аудиокниг

Не так давно, я писала, что Elevenlabs с барского плеча выкатили приложение для бесплатного создания аудиокниг. Теперь сервис ElevenReader доступен и на сайте

Очень удобно, что может конвертировать в аудио популярные текстовые форматы - txt, epub, pdf и т.д.
Доступны 32 языка, включая русский.
И создать свою аудиокниг моно все так же абсолютно бесплатно!

Кстати, все видео я тоже перевела в Elevenlabs с сохранением голоса и интонации диктора. Это реально платформа для всего, что связано со звуком и голосом - все в одном месте)

2. Scribe для преобразования аудио в текст

Помимо того, что можно из текста сделать аудио, Elevenlabs сделали и наоборот, - выкатили сервис Scribe для точного преобразования аудио в текст. Сервис очень точно распознает речь

Имейте ввиду, что для работы потребуется иностранный айпи

Более того, заявлено, что справляется лучше Whisper V3 от OpenAI на 36,9% и Gemini 2.0 Flash на 5,6%. Как многие уже успели убедиться по нейродубляжу,Elevenlabs отлично определяет количество спикеров и различает их голоса. Добавляет маркеры для лучшего восприятия диалогов. А еще распознает без проблем “ээ” и прочие междометия, вздохи.

Работает просто - загружаете файл, но не тяжелее 100Mb, и сервис быстро преобразует аудиофайл в текст.

Очень удобно, что для субтитров сразу можно экспортировать файл в формате SRT, а еще расставить тайм-коды. Поддерживает 99 языков, включая русский.

Кстати, как вам мой голос на этом видео - в статье про бесплатный аналог ChatGPT? На самом деле, мне лень было записывать, я решила по-быстренькому напечатать текст, и Elevenlabs озвучил моим голосом)

Знаете что самое приятное в этой ситуации? Да, то, что можно на минимальном тарифе за 5 баксов в месяц быстро клонировать свой голос, например, скачать и скинуть свое голосовое из Вацапп)

Но я про другое) Несколько месяцев я Elevenlabs почти не пользовалась, ну так сложилось - были другие задачи 🤷🏻‍♀️ И я оставалась на тарифе за 5$. В какой-то момент я думала временно отключить подписку, но боги маркетинга были против, и вот я уже соглашаюсь 1 месяц за 1 доллар вместо 5 попробовать 🫣 В итоге сейчас мне активно понадобилась платформа чтобы сделать х2 по задачам, и и меня ждали накопленные кредиты 🥹 Даже на тариф подороже не понадобилось переходить, непотраченные кредиты не списывались каждый месяц, а копились, для меня приятное открытие, вдруг кому тоже будет полезно)

Там же кстати можно создать кастомный голос - кстати, этот пост тоже был озвучен подобным образом, а еще и про Napkin, а вы и не заметили) ну или не сказали

Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Так же вам может быть интересно:

Как оплачивать иностранные сервисы
А если вам не хочется заморачиваться, в боте Syntx -- это мини приложение в телеграм, есть все популярные модели в единой подписке, и их можно оплатить русской картой. - Процесс я показала на примере создания Нейрофотосессии со своим лицом

Показать полностью 1

[моё] Бесплатно Искусственный интеллект Фриланс Нейронные сети Услуги Озвучка Русская озвучка Голос Книги Text-to-speech Звук Звукорежиссер Технологии Будущее Саунд-дизайн Обзор Рекомендации Перевод Перевел сам Видео Короткие видео Длиннопост

Neurosonya

Лига фрилансеров

Бизнес

Конвертация аудио и видео в текст. Как сделать транскрипцию совещания и затем определить итоги совещания⁠⁠

Серия Полезность

7 месяцев назад

1/2

Пост полезности, как сделать транскрипцию совещания и затем определить итоги совещания.

Помогут в этом инструменты высокой точности, которые переводят аудио или видео в текст. В сети расфорсился инструмент Transkriptor, который обещает расшифровать ваши аудио и видео с 99% точностью.

Я проверила на своем видео из прошлого поста, действительно, сервис точный, есть приложение, так что удобно использовать на совещаниях. Запись экрана тоже хорошо расшифровывает, можно скачать и загрузить файлы разных форматов. Там же на платформе есть ИИ.

А теперь к минусам Transkriptor:

Бесплатно подойдет для роликов до 2 минут, далее подписка от 20$ в месяц или 100$ за год, за это дается 2400 минут в месяц. Кстати, потом дают скидку и уже 10$ в месяц за все.

Я рекомендую сервис для профессионального использования, когда другие не справляются или для рабочих совещаний. Так же я вам подготовила бесплатную альтернативу, я и сама любитель сэкономить)

Бесплатная альтернатива:

Хорошие бесплатные возможности дает Yescribe.ai - бесплатно можно загрузить 3 файла в день по 30 минут и точность тоже 99%. Тоже около 100 языков, включая русский.

А потом я рекомендую транскрипцию встречи вставить в ChatGPT, чтобы он привел сумбурные записи в структурированную запись с четко определенными моментами по итогу совещания. А поможет вам в этом этот промпт 😉

Больше полезных, а главное проверенных сервисов для учебы, работы и бизнеса в моем Закрытом клубе. Там же мы учимся промптить, разбираемся в языковых моделях, помогаем друг другу с задачами. Смысл в том, что вы платите только один раз! Вам не нужно торопиться, пока подписка действует, вы можете учиться в своем темпе, и в любой момент задать вопрос в чате) А то всё быстро устаревает, а на постоянные обучения денег не напасешься, я это понимаю.

Показать полностью 2

[моё] Бесплатно Удаленная работа Фриланс Искусственный интеллект Нейронные сети Транскрипция Text-to-speech Заметки Совещание Протокол Работа Бизнес Малый бизнес Помощь Предпринимательство Технологии Будущее Услуги

Neurosonya

Искусственный интеллект

Создание голоса по текстовой подсказке в ElevenLabs. Мой обзор и советы⁠⁠

Серия Полезность

1 год назад

Давненько по меркам ElevenLabs они нас не радовали, вот недавно выкатили фишку -теперь по описанию можно создать своего персонажа, вернее голос. Функция называется Voice Design, вы можете задать характеристики голоса и персонажа - пол, возраст, высокий/низкий голос и т.д. ElevenLabs выдаст на выбор 3 варианта.

Как использовать:

Во вкладке слева Voices нажимаем кнопку Add a new voice. Затем выбираем Voice Design, описываем, каким должен быть голос персонажа, и пишем текст для озвучки, как я показала на видео.

Текст должен быть не короче 100 слов и не длиннее 1000 слов.

Мои рекомендации:

В самом начале создания голоса я вставила текст в 700 символов, в итоге возникла ошибка, а кредиты списались, я повторила процедуру - и итог тоже повторился 😁 Поэтому, чтобы не тратить свои нервы и кредиты, для начала используйте фразу от 100-150 слов. Так голос спокойно и без ошибок сгенерируется в трех вариантах, из которых вам надо будет выбрать понравившийся. А вот после того, как вы этот голос сохранили, можете использовать уже на длинных текстах.

Подпишитесь на
НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Кстати, видео я тоже озвучила с помощью ElevenLabs - быстро клонировала свой голос даже не в профессиональном режиме, а на самом минимальном тарифе от 5$

Как бесплатно использовать Elevenlabs

Бесплатно на старте ElevenLabs дают 10 000 кредитов, которые вы можете использовать по своему усмотрению, так как там есть и дубляж видео на разные языки, и синтез голоса, и клонирование голоса, в общем, рекомендую ознакомиться с сервисом, в этом посте я сравнила его с другими сервисами.

Чтобы работать с ElevenLabs необходимо поменять свой ip, if you know what I mean ))

Вопросы Как оплатить нейросеть в РФ и как обойти блокировку разобрала в своем Закрытом сообществе Закрытый клуб НейроУчеба - где мы учимся, как использовать нейросети и делимся лайфхаками.

Показать полностью

[моё] Искусственный интеллект Полезное Нейронные сети Голос Звук Технологии Инновации Клонирование Dubbing Звукорежиссер Text-to-speech Обзор Совет Опыт Личный опыт Гайд Руководство Видео

Neurosonya

Полезные нейросети

Silero: высокоточное распознавание и синтез речи на русском языке⁠⁠

Серия Полезность

1 год назад

Silero: высокоточное распознавание и синтез речи на русском языке

Друзья, сегодня хочу поделиться с вами сервисом, который значительно упростит работу с аудио и текстом — Silero. Если вы создаете подкасты, видео или вам нужно быстро перевести аудио в текст, этот инструмент для вас. Тем более, что ElevenLabs заблокирован в РФ, и не все впн заходят на сайт.

Что может Silero:

Преобразует аудио в текст с высокой точностью, поддерживая русский язык и различные акценты.
Превращает текст в естественную голосовую озвучку. Идеально для создания аудиокниг, дикторских текстов и озвучки видео.
Обработка происходит быстро даже с большими объемами данных.

Можно бесплатно установить с GitHub. Если вы не знакомы с программированием, на сайте Silero есть веб-интерфейс для быстрого тестирования функций без установки дополнительных программ 😉

Более подробно в нейросети для Учебы и Работы мы погружаемся в Закрытом клубе Нейроучеба

Что крутого в Silero:

Проект с открытым исходным кодом, доступен для всех.
Оптимизирован для русского, учитывает нюансы произношения.
Легко интегрируется в ваши приложения и проекты.

Отлично подойдет для транскрибации интервью и создания озвучки для видео. Точность распознавания хорошая, а синтезированная речь звучит естественно и приятно для восприятия.

Показать полностью

[моё] Искусственный интеллект Нейронные сети Полезное Голос Речь Озвучка Русская озвучка Звук Технологии Text-to-speech Бесплатно

AntonBogatushin

Топ 20 AI сервисов для создания контента для бизнеса⁠⁠

Серия Ai фабрика контента

1 год назад

Итак, мой список нейросетей которые помогут в создании контента.

Сервисы по созданию фото контента для карточек товаров для маркетплейсов или вашего интернет магазина

1. Weshop.ai для одежды маст хев, сейчас номер 1 на producthunt. Много красивых ИИ моделей

2. 24tech.ai создает фоны для товара в 1 клик

3. Flair.ai похожий сервиc

4. express.adobe.com отлично подойдет для создания шаблонов карточек

Сервисы по созданию видео контента для карточек товаров с использование ИИ аватаров

Многие знают хейген и синтезию но на рынке я тестировал уже больше 20 таких сервисов, вот список, выбирайте

| Creatify.ai | Мой фаворит - Предлагает высококачественную озвучку голосом и 6 сценариев для озвучки с помощью ChatGPT. Отличается удобством использования и возможностью пакетного создания видео для всех карточек. |

| synths.video | Сервис для создания аватаров с использованием технологии Synthesia и генерации видео из текста. |

| synthesys.io | Платформа для создания синтетического медиа-контента, включая видео с виртуальными ведущими. |

| alethea.ai | Сервис, специализирующийся на создании интерактивных AI-персонажей и генерации контента с их участием. |

| synthesia.io | Популярная платформа для создания AI-видео с виртуальными ведущими на основе текстовых сценариев. |

| hourone.ai | Сервис для создания персонализированных видео с использованием искусственного интеллекта. |

| digitalhumans.com | Платформа для разработки и внедрения реалистичных цифровых людей для различных бизнес-применений. |

| aistudios.com | Студия, предоставляющая инструменты для создания AI-генерируемого видеоконтента. |

| movio.la | Сервис для создания объясняющих видео с использованием AI-аватаров и синтезированного голоса. |

| malivar.io | Платформа для создания виртуальных ведущих и персонажей с использованием AI-технологий. |

| d-id.com | Сервис, специализирующийся на создании говорящих портретов и анимированных аватаров. |

| arcads.ai | Отличается созданием очень реалистичных и живых AI-аватаров для различных применений. |

| colossyan.com | Предлагает создание собственных мега-крутых аватаров, отличается простотой использования и возможностью создания презентаций. |

| wonderdynamics.com | Позволяет в один клик заменить человека в видео на 3D-аватар, упрощая процесс создания спецэффектов. |

| deepbrain.io | Платформа для создания AI-видео и виртуальных ведущих с широким спектром применений. |

| Elai.io | Предлагает качественные аватары с интеграцией GPT-4 для более интеллектуального взаимодействия. |

| heygen.com | Позволяет превращать фотографии в видео-аватары, осуществлять перевод на другие языки с изменением артикуляции и создавать рилзы. |

| Swapface.org | Специализируется на замене лиц на фото и видео, а также на создании уникальных лиц с помощью AI. |

Сервисы озвучек текст в речь для видео

elevenlabs.io murf.ai cybervoice.io huggingface.co/spaces/ysharma/OpenAI_TTS_New Озвучивает всеми официальными голосами chatgpt

Показать полностью 2

[моё] Искусственный интеллект ChatGPT Text-to-speech Вертикальное видео Длиннопост

Посты не найдены

1 2 3 4 5

Как это работает

Поддерживаемые языки

Возможности

Кому пригодится

Как попробовать

Портативная версия

Системные требования

Текущие ограничения

1. ElevenReader - бесплатное создание аудиокниг

2. Scribe для преобразования аудио в текст

А теперь к минусам Transkriptor:

Бесплатная альтернатива:

Как использовать:

Мои рекомендации:

Как бесплатно использовать Elevenlabs

Что может Silero:

Что крутого в Silero:

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества