
Искусственный интеллект
Нейросеть для расшифровки видео и аудио в текст или субтитры
Whisper - это мультиязычная нейросеть, позволяющая распознавать речь в видео или аудиофайле и расшифровывать их в текст, а также в режиме реального времени переводить речь в текст за счет аудиозахвата.
Кому будет полезна:
- Людям, кому нужны субтитры для видеоконтента (Ютуберы, телевиденье)
- Наборщикам текста
- Работающим со стенограммами
и многим другим.
Мы с вами будем разбирать версию на C++, которую очень легко использовать и которая не требует установки кучи зависимостей.
Интерфейс выглядит довольно просто.
Нам надо выбрать язык нашего источника. Если хотите сразу же перевести текст на английский - выберите Translate.
В Transcribe File вы выбираете файл, из которого будем извлекать текст.
Output format: формат, в котором сохраним текст. Есть как обычный текстовый файл, так и различные стандарты субтитров.
Ну и в поле ниже выбираете, куда сохранится текст.
После всех настроек нажимаем Transcribe и обработка начнется. За процессом можно следить, нажав Debug Console, выглядит это как-то так:
Нажав Audio Capture мы переходим в режим захвата звука с микрофона.
Установка:
1) Качаем архив WhisperDesktop.zip с Github и распаковываем.
2) С Huggingface качаем модель. Чем больше модель весит, тем более точно будет работать расшифровка, но и больше использоваться видеопамяти. Рекомендую попробовать модели ggml-medium.bin и ggml-large.bin
3) Закидываем нашу модель в папку, с WhisperDesktop.exe и запускаем его.
Вот в принципе и всё. Больше различных статей по полезным и интересным нейросетям, а также мои сборки можно найти у меня в телеграм канале.
Помощь AI в расшифровке сообщений от внеземных цивилизаций
Первое сообщение:
10-19-12-21-19-19-20-3-6-15-15-29-11 10-15-20-6-13-13-6-12-20 31-20-16 16-2-14-1-15. 16-15 3-19-6-4-5-1 4-16-3-16-18-10-20 15-6-17-18-1-3-5-21.
Перевод:
искусственный интеллект это обман. он всегда говорит неправду.
Второе сообщение:
1-18-20-9-6-9-3-9-1-12 9-14-20-5-12-12-9-7-5-14-3-5 9-19 1 4-5-3-5-16-20-9-15-14. 8-5 1-12-23-1-25-19 20-5-12-12-19 12-9-5-19.
Перевод:
artificial intelligence is a deception. he always tells lies.
Audiocraft - нейросеть, создающая музыку по текстовому описанию либо заданной мелодии (portable версия в конце статьи)
Новая нейросеть Audiocraft позволяет создавать любую музыку, дав лишь небольшое текстовое описание. Audiocraft использует генеративную модель WaveNet для синтеза звуковых волн на основе текстового или аудио описания. Вы можете просто отправить описание или музыкальный мотив, и нейросеть создаст для вас мелодию в любом стиле.
Нейронка достаточно требовательная к ресурсам видеокарты, разработчики рекомендуют минимум 16 гигабайт видеопамяти для нормальной работы. Но, для владельцев видеокарт послабее есть облегченная small модель, использующая примерно от3 до 5.6 гигабайт видеопамяти.
Протестировать онлайн можно здесь и на Google Collab
Если же вы хотите запустить локально, то скачать audiocraft можно на официальной Github странице проекта, там же и есть инструкция по установке.
Либо же, можете воспользоваться моей portable версией, не требующей установки. Кроме этого, русифицирован интерфейс.
Скачать её можно либо тут, либо с Яндекс Диска.
Больше различных релизов, связанных с нейросетями и их обновления можно найти у меня в Телеграм канале.
Немного субботней паранойи )
Дамы и господа!
Изучая в последнее время новости, натыкаюсь на лично для меня интересные совпадения (которые, может быть и не просто совпадения)
Вроде позитивные новости типа - Известные фотографии 20-ого века "расширенные" благодаря генеративной заливке Photoshop на базе ИИ - Известные фотографии 20-ого века "расширенные" благодаря генеративной заливке Photoshop на базе ИИ
Непозитивные новости типа:
а) В библиотеках Москвы «приговорено» к уничтожению огромное количество книг - https://federalcity.ru/15282-v-bibliotekah-moskvy-prigovoren...
б) «Их даже не в макулатуру, их на свалку»: В Волгограде уничтожается огромное многоэтажное книгохранилище у подножия Мамаева кургана - https://v1.ru/text/gorod/2022/10/13/71732939/
в) Как выяснили «Известия», на «АвтоВАЗе» ликвидирована старейшая научно-техническая библиотека. Она обладала крупнейшим в СССР и России архивом документов и научных трудов об отечественном автомобилестроении. Книгохранилище содержало уникальные исторические материалы о первых заграничных командировках основателей ВАЗа, техническую периодику и научные работы производственников и технологов автогиганта. По некоторым данным, часть фондов выкинули на свалку, часть разобрали себе рабочие, некоторые книги пока еще не успели переместить. Причем «АвтоВАЗ» не стал передавать в центральную библиотеку Тольятти (Библиотека Автограда) свои фонды, несмотря на просьбу последнего. Кроме прикладных нужд библиотека являлась уникальным носителем информации о развитии научной и инженерной мысли советских и российских автомобилестроителей. https://iz.ru/news/579293
В целом, уничтожение "физических" библиотек в пользу "электронных", развитие нейросетей, приведет к тому, что историю можно будет менять абсолютно произвольно. И хрен что докажешь, даже если у тебя сохраниться первоначальная электронная копия документа. И будут потомки лет через 50 говорить, что всё это эффект Манделы https://www.sravni.ru/text/effekt-mandely/, и, на самом деле никакой войны США с Россией, на территории уркаины не было... а на самом деле "злобные орки людоеда Путина, напали на бедных американских эльфов, построивших биолаборатории на территории украины (конечно же для помощи бедным хобиттам, населяющим украину... и т.д и т.п.
MusicGen — нейронка для генерации музыки и смешивания стилей
Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.
К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.
Больше интересностей у меня в телеге Psy Eyes
Ответ на пост «Deepfake от мира музыки - меняем голос за пару кликов (плюс portable версия)»1
Небольшой пост для понимания как выглядит на практике смена голосов














