Сообщество - Искусственный интеллект

Искусственный интеллект

5 076 постов 11 493 подписчика

Популярные теги в сообществе:

3

Бундяне! Всем подписчиков и достижений! Интеллект не пройдет!

Бундяне! Всем подписчиков и достижений! Интеллект не пройдет!

Если попаду в Лучшее то посвечу свою жизнь борьбе с искусственным интеллектом! И с интеллектом в целом!

63

Нейросеть для расшифровки видео и аудио в текст или субтитры

Whisper - это мультиязычная нейросеть, позволяющая распознавать речь в видео или аудиофайле и расшифровывать их в текст, а также в режиме реального времени переводить речь в текст за счет аудиозахвата.

Кому будет полезна:

- Людям, кому нужны субтитры для видеоконтента (Ютуберы, телевиденье)

- Наборщикам текста

- Работающим со стенограммами

и многим другим.

Мы с вами будем разбирать версию на C++, которую очень легко использовать и которая не требует установки кучи зависимостей.

Интерфейс выглядит довольно просто.
Нам надо выбрать язык нашего источника. Если хотите сразу же перевести текст на английский - выберите Translate.

В Transcribe File вы выбираете файл, из которого будем извлекать текст.
Output format: формат, в котором сохраним текст. Есть как обычный текстовый файл, так и различные стандарты субтитров.

Ну и в поле ниже выбираете, куда сохранится текст.

После всех настроек нажимаем Transcribe и обработка начнется. За процессом можно следить, нажав Debug Console, выглядит это как-то так:



Нажав Audio Capture мы переходим в режим захвата звука с микрофона.

Установка:

1) Качаем архив WhisperDesktop.zip с Github и распаковываем.

2) С Huggingface качаем модель. Чем больше модель весит, тем более точно будет работать расшифровка, но и больше использоваться видеопамяти. Рекомендую попробовать модели ggml-medium.bin и ggml-large.bin

3) Закидываем нашу модель в папку, с WhisperDesktop.exe и запускаем его.

Вот в принципе и всё. Больше различных статей по полезным и интересным нейросетям, а также мои сборки можно найти у меня в телеграм канале.

Показать полностью 3
5

Помощь AI в расшифровке сообщений от внеземных цивилизаций

Первое сообщение:

10-19-12-21-19-19-20-3-6-15-15-29-11 10-15-20-6-13-13-6-12-20 31-20-16 16-2-14-1-15. 16-15 3-19-6-4-5-1 4-16-3-16-18-10-20 15-6-17-18-1-3-5-21.

Перевод:

искусственный интеллект это обман. он всегда говорит неправду.

Второе сообщение:

1-18-20-9-6-9-3-9-1-12 9-14-20-5-12-12-9-7-5-14-3-5 9-19 1 4-5-3-5-16-20-9-15-14. 8-5 1-12-23-1-25-19 20-5-12-12-19 12-9-5-19.

Перевод:

artificial intelligence is a deception. he always tells lies.

Показать полностью 8
152

Audiocraft - нейросеть, создающая музыку по текстовому описанию либо заданной мелодии (portable версия в конце статьи)

Новая нейросеть Audiocraft позволяет создавать любую музыку, дав лишь небольшое текстовое описание. Audiocraft использует генеративную модель WaveNet для синтеза звуковых волн на основе текстового или аудио описания. Вы можете просто отправить описание или музыкальный мотив, и нейросеть создаст для вас мелодию в любом стиле.

Нейронка достаточно требовательная к ресурсам видеокарты, разработчики рекомендуют минимум 16 гигабайт видеопамяти для нормальной работы. Но, для владельцев видеокарт послабее есть облегченная small модель, использующая примерно от3 до 5.6 гигабайт видеопамяти.

Протестировать онлайн можно здесь и на Google Collab

Если же вы хотите запустить локально, то скачать audiocraft можно на официальной Github странице проекта, там же и есть инструкция по установке.

Либо же, можете воспользоваться моей portable версией, не требующей установки. Кроме этого, русифицирован интерфейс.

Audiocraft - нейросеть, создающая музыку по текстовому описанию либо заданной мелодии (portable версия в конце статьи)



Скачать её можно либо тут, либо с Яндекс Диска.

Больше различных релизов, связанных с нейросетями и их обновления можно найти у меня в Телеграм канале.

Показать полностью 1
16

Немного субботней паранойи )

Дамы и господа!

Изучая в последнее время новости, натыкаюсь на лично для меня интересные совпадения (которые, может быть и не просто совпадения)

  1. Вроде позитивные новости типа - Известные фотографии 20-ого века "расширенные" благодаря генеративной заливке Photoshop на базе ИИ - Известные фотографии 20-ого века "расширенные" благодаря генеративной заливке Photoshop на базе ИИ

  2. Непозитивные новости типа:

    а) В библиотеках Москвы «приговорено» к уничтожению огромное количество книг - https://federalcity.ru/15282-v-bibliotekah-moskvy-prigovoren...

    б) «Их даже не в макулатуру, их на свалку»: В Волгограде уничтожается огромное многоэтажное книгохранилище у подножия Мамаева кургана - https://v1.ru/text/gorod/2022/10/13/71732939/

    в) Как выяснили «Известия», на «АвтоВАЗе» ликвидирована старейшая научно-техническая библиотека. Она обладала крупнейшим в СССР и России архивом документов и научных трудов об отечественном автомобилестроении. Книгохранилище содержало уникальные исторические материалы о первых заграничных командировках основателей ВАЗа, техническую периодику и научные работы производственников и технологов автогиганта. По некоторым данным, часть фондов выкинули на свалку, часть разобрали себе рабочие, некоторые книги пока еще не успели переместить. Причем «АвтоВАЗ» не стал передавать в центральную библиотеку Тольятти (Библиотека Автограда) свои фонды, несмотря на просьбу последнего. Кроме прикладных нужд библиотека являлась уникальным носителем информации о развитии научной и инженерной мысли советских и российских автомобилестроителей. https://iz.ru/news/579293

В целом, уничтожение "физических" библиотек в пользу "электронных", развитие нейросетей, приведет к тому, что историю можно будет менять абсолютно произвольно. И хрен что докажешь, даже если у тебя сохраниться первоначальная электронная копия документа. И будут потомки лет через 50 говорить, что всё это эффект Манделы https://www.sravni.ru/text/effekt-mandely/, и, на самом деле никакой войны США с Россией, на территории уркаины не было... а на самом деле "злобные орки людоеда Путина, напали на бедных американских эльфов, построивших биолаборатории на территории украины (конечно же для помощи бедным хобиттам, населяющим украину... и т.д и т.п.

Показать полностью 2
5

MusicGen — нейронка для генерации музыки и смешивания стилей

Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.

К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.

Демо

Модели

Код

Больше интересностей у меня в телеге Psy Eyes

Показать полностью
2

Ответ на пост «Deepfake от мира музыки - меняем голос за пару кликов (плюс portable версия)»1

Небольшой пост для понимания как выглядит на практике смена голосов

Оригинал

Обработка

Оригинал

Видео не мое, нашел в дискорде.

Показать полностью 3
Отличная работа, все прочитано!