Серия «новости»

9

Google I/O 2025: Project Astra — голосовой ассистент нового поколения

Google показала, каким будет ИИ-ассистент будущего - Project Astra, и он способен на то, о чём старые голосовые помощники (привет, Siri и Alexa) и мечтать не могли. Astra – это часть проекта Gemini Live, которая наделяет ИИ зрением, слухом и навыками реального действия. Проще говоря, ассистент не только отвечает на вопросы, но и сам выполняет задачи на устройстве, как полноценный секретарь.

Для перевода видео я использовала Elevenlabs - он автоматически переводит видео, сохраняя голос.

Что умеет Project Astra

  • На Google I/O 2025 показали впечатляющее демо с ремонтом велосипеда, где пользователь просто разговаривает с ассистентом, а телефон делает всё за него:

  • Сначала Astra по голосовой команде нашёл в интернете PDF-инструкцию к нужной модели велосипеда, открыл файл и пролистал его до нужного раздела. На экране было видно, как ИИ сам “скроллит” документ пальцем!

  • Потом по просьбе ассистент открыл YouTube, нашёл подходящее видео по ремонту и включил ролик. То есть вам даже искать ничего не надо — ИИ сам выберет лучший туториал.

  • Столкнувшись с вопросом о детали, Astra полез в Gmail пользователя. Он нашёл информацию в переписке (например, артикул запчасти или адрес магазина из письма) и выдал ответ, опираясь на личные данные, которые помнил.

  • Дальше – магия камерой. Пользователь навёл смартфон на кучу различных запчастей перед ним, и ассистент через камеру понял, какая деталь нужна, и подсветил на экране именно её! По сути, зрение ИИ определило объект в реальном мире и указало на него – словно в научной фантастике.

  • Самостоятельные звонки – помните технологию Duplex? Теперь это встроено в ассистента. В демо Astra позвонил в магазин автозапчастей, разговаривал женским голосом с продавцом почти как живой человек, уточняя наличие нужной детали. Продавец ответил, что деталь есть – и тогда ИИ спросил у пользователя: покупать ли? После утвердительного ответа ассистент оформил заказ. Все детали разговора, интонации – как у настоящего секретаря, люди на том конце провода даже не подозревают, что общаются с ИИ!

Подпишитесь на НейроProfit и узнайте, как можно использовать нейросети для бизнеса, учебы и работы, не теряя свое время.

Ещё момент:

во время ответа ассистента рядом заговорил другой человек – Astra мгновенно приостановил речь, не путая фоновые реплики с командой. Пользователь сказал “продолжай” – и ИИ продолжил ровно с того места, на котором остановился, без повторов. У ассистента, выходит, есть слух и воспитание 🙂.

  • Долгая память: когда позже пользователь спросил, какая нужна корзина на велосипед, “чтобы туда влезла моя собака”, Astra вспомнил кличку собаки из прежних диалогов! Он ответил что-то вроде “Да, для Бобби подойдёт такая-то корзина” – то есть ИИ учел личный контекст и продемонстрировал память, как настоящий приятель, который вас давно знает.

Google Action Intelligence

Все эти способности Google называет единым термином Action Intelligence (интеллект действий). Проще говоря, Astra сочетает нейросеть Gemini с камерой, микрофоном, экраном и всеми приложениями телефона, чтобы самому выполнять пользовательские задачи. Это синтез нескольких технологий: поиск информации, понимание экрана и окружения, управление приложениями, звонки и общение, контекст из личных данных, длительная память и супер-натуральный голос 🔥

Заключение

Пока Project Astra – экспериментальный проект. Google уже около года тестирует его в небольшом кругу (в виде отдельного приложения на Android). Но цель ясна: обкатать функции и внедрить всё это великолепие в основное приложение Gemini Live, сделав его универсальным ИИ-помощником.

В общем скоро Google-ассистент у каждого сможет не просто ответить на вопрос, а реально сделать за вас кучу дел – от разбора завалов в почте до управления умным домом.

Про остальные Главные Новинки от Google расскажу и покажу наглядно в следующем посте, кто не хочет ждать, в моем телеграм канале уже пост есть.

Отдельно:

Показать полностью
6

OpenAI выпустили новые модели GPT — о1 и o1-mini. Мой обзор и советы по использованию

Новые модели способны мыслить, как человек, предназначены для решения сложных задач, способны анализировать. В отличие от предыдущих моделей с быстрым мышлением способны к глубоким и осознанным рассуждениям.

Конечно новые модели умнее GPT-4o и лучше в программировании, задачах на математику и логику.

На видео пример игры, созданной с GPT — о1. Еще может писать полностью готовое эссе по экономике для колледжа, переводить иероглифы. Примеры эти вы наверное видели, если нет, то они в официальном YouTube OpenAI (уже работает без впн).

Что крутого в ChatGPT о1 и ChatGPT o1-mini для не программистов и не математиков?

Да, модели хороши не только для математики и науки. Забегая вперед, скажу, что это реальный ассистент, который думает, ответ вы получите не сразу, но ответ вас поразит - словно бизнес-ассистент принес решение задачи. Ниже расскажу свой опыт взаимодействия, но пока разберемся с новыми моделями и их ограничениями

Кому доступны ChatGPT о1 и ChatGPT o1-mini

Доступ получают пользователи платной подписки, так же будет доступен API. Для бесплатных пользователей будут открывать доступ к o1-mini, которая так же умнее, чем GPT-4o, конкретно для написания кода, примерно на уровне Сlaude 3.5 Sonnet. Но пока o1 mini так же доступна пока только платным подписчикам ChatGPT

Ограничения GPT о1 и o1-mini

У моделей есть ограничения: у о1-доступно 30 запросов в неделю, у o1-mini доступно 50 запросов в неделю. Поэтому рекомендую использовать только для задач, требующих серьезного решения, аналитики и те, с которыми GPT-4o не справился. Для повседневных задач лучше использовать платный GPT-4o или бесплатный GPT-4 mini.

Мой опыт взаимодействия с ChatGPT o1-preview

OpenAI выпустили новые модели GPT — о1 и o1-mini. Мой обзор и советы по использованию

Я попробовала над одной из конкретных задач: Мне нужен бот, который можно прикрутить к лендингу, чтобы после совершения оплаты выдавал одноразовую ссылку-приглашение. Помню, что было готовое решение, но не помню название. GPT-4o дал 4 варианта, но конкретного решения не дал, и бот немного мимо был. ChatGPT o1-preview думал 16 секунд (там отображается) и выдал мне 4 конкретных варианта с названиями ботов и сервисов, затем рассудил, какие из вариантов  могут мне больше  подойти исходя из моего уровня знаний. Далее я продолжила с ним общение, пока он не выдал мне исчерпывающую инструкцию. Но напомню про ограничения 30 запросов В НЕДЕЛЮ! Поэтому если хотите ответ на максимум, который способна дать ЛЛМ, общайтесь правильно.

Мои советы по взаимодействию с ChatGPT o1-preview:

  • Расписать всю ситуацию максимально подробно с деталями и всеми нюансами, как бы дали задачу личному или бизнес ассистенту, а лучше составить детальный промпт для более крутого результата

  • Тренироваться лучше на старой модели GPT-4o без ограничений. Рекомендую с помощью составить промпт общаясь и задавая контекст или используя эту подсказку, составьте промпт совместно с  ChatGPT, он будет задавать вопросы для более детального промыта, когда составили, с готовым промытом под вашу задачу идете уже в новую модель GPT — о1

Хотите узнавать о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подписывайтесь на телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.

Показать полностью 1 1
9

Нейросеть Reka - чем он лучше и хуже ChatGPT и других. Какую модель выбрать: Reka, ChatGPT-4, Claude 3 или Gemini Ultra?

Новую языковую модель Reka Core выпустили бесплатно в открытый доступ. Согласно бенчмаркам, чат-бот мощнее ChatGPT-4. Он умеет распознавать все типы контента: текст, фото, аудио и видео. Отлично понимает русский язык, слушает голосовые сообщения, может объяснить диаграммы и кратко пересказать и подвести итог лекции. Сейчас его называют очередным убийцей ChatGPT (как ново))

Чем Reka Core лучше ChatGPT-4 и других моделей:

  • В отличие от ChatGPT-4, Reka способен понимать видео! ChatGPT-4 пока только картинки. В этом его и Gemini Ultra обходит.

  • Работает без ВПН

  • Интерфейс попроще

  • Отлично понимает русский язык и пишет без ошибок

  • Лучше, чем  Gemini Ultra распознает, что за видео, более того, дает справку, с точностью пересказывает, что происходит на видео.

Сравнение Reka Core с ChatGPT-4, Claude 3 и Gemini Ultra

Сравнение Reka Core с ChatGPT-4, Claude 3 и Gemini Ultra

Чем Reka хуже ChatGPT-4 и других моделей:

  • Нет пользовательских инструкций, как в ChatGPT-4 “Custom Instructions”

  • Окно контекста меньше чем у ChatGPT-4 и Claude 3 Opus

  • ChatGPT-4 немного лучше понимает изображения

  • Творческий подход у него похуже, чем у Claude 3 Opus, но на одном уровне с ChatGPT-4. В общем-то и Claude 3 Sonnet будет более творческий.

Какую языковую модель выбрать для своих целей: Reka, ChatGPT-4,  Claude 3 или Gemini Ultra?

Если вы работаете с видеоматериалами, лекциями, видеопродакшном, монтажом, дубляжем, то присмотритесь к Reka.

Если вам нужно контекстное окно побольше и вам нужен более “умный” и разносторонне развитый инструмент, это ChatGPT-4 - у него больше MMLU - инструмент, предназначенный для измерения знаний, которые нейросеть получила при предварительном обучении. Claude 3 Opus не советую, так как он только картинки понимает.

Если вам нужен чат-бот для творчества, написания стихов, рассказов - достаточно будет Claude 3 Sonnet, но он только картинки понимает.

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? В своем телеграм канале НейроProfit я рассказываю, как можно использовать нейросети для бизнеса

UPD:

В новой модели ChatGPT 4o уже можно загружать и анализировать видео

Показать полностью 1

Чем нейросеть Reka Core убила ChatGPT-4 и Как она связана с Netflix ?

Видели, этот ролик зафорсился всеми? Так что же на нем такого и почему про новую языковую модель Reka Core говорят, что она убила ChatGPT-4, давайте разберемся!

Почему Reka Core лучше ChatGPT-4 и Gemini Ultra?

Reka Core лучше ChatGPT-4 уже тем, что умеет понимать видео. В ChatGPT-4 пока можно грузить только картинки, аудио и текст.

В Gemini Ultra тоже можно загружать видео, но таких крутых вещей, как Reka Core, он сделать не сможет.

Подробнее о том, почему нейросеть Reka Core лучше и хуже ChatGPT-4, Claude 3 и Gemini Ultra я расскажу в следующем посте, а кто не хочет ждать, в своем телеграм канале я уже выложила пост, где расписала, какую модель лучше выбрать для своих целей.

Очень вкратце, Reka Core удалось то, что другим не удавалось - анализировать видео! Режиссерам, монтажерам, тем, кто работает с лекциями, видеоматериалами, дубляжем эта функция очень полезна! Да и обычным людям не хватало, чтобы можно было загрузить видео и спросить, кто автор, где снималось, что за вещи и тд. Лучше сами наглядно убедитесь, на что способна Reka Core и что происходит в ролике.

Что происходит на видео?

В языковую модель Reka Core загрузили сериал Netflix "Задача трех тел/ THE 3 BODY PROBLEM", и нейросеть без проблем посмотрела и проанализировала его.

Reka Core подробно описала сцену, ответила на вопрос, почему в одной из сцен был обратный отсчет, описала труп мужика в ванной.

Затем безошибочно и подробно ответила на вопросы, где снималась эта сцена и что за вертолет в ней был задействован.

А теперь перевод видео:

Видео сразу начинается с вопроса: "Каково это - смотреть трейлер сериала, Задача трех тел/ THE 3 BODY PROBLEM с нашей новой моделью Reka Core?". Дальше показывается отрезки из сериала на Netflix и демонстрируется мощь Reka Core, в которую загрущзили видео.

Перевод видео:

В начале видео нейросеть просят описать сцену загруженного сериала, вот что ответил Reka Core:

"В видеоролике показана сцена, в которой мужчина стоит в тускло освещенной комнате и светит фонариком на стену, исписанную рукописными заметками и математическими уравнениями. Заметки написаны красными и черными чернилами, и кажется, что мужчина внимательно их изучает. Затем он поворачивается к камере и говорит, упоминая обратный отсчет времени и связь с серией убийств.”

То есть чат-бот безошибочно описал, что происходило на видео!

Затем, тестеры пошли дальше, и спросили, почему на одной из сцен показаны цифры в воздухе: “Почему мы видим здесь обратный отсчет?”

Ответ Reka Core:

Обратный отсчет в видеоролике наводит на мысль о срочности и надвигающейся опасности. Вероятно, он связан с серией убийств, о которых упоминает мужчина, и может указывать на бомбу замедленного действия или крайний срок, в который персонажи должны уложиться, чтобы предотвратить катастрофу или разгадать тайну. Обратный отсчет также может быть метафорой конечности времени и борьбы персонажей за смысл окружающего их хаоса.

Неплохо так, да?

Затем Reka Core без проблем описывает сцену с мужиком в ванной:

На видео показана сцена из сериала Netflix, где мужчина безжизненно лежит на полу в ванной. Полицейский стоит на коленях рядом с ним и проверяет пульс. На следующем кадре видно, как мужчина в очках и черном пиджаке реагирует на происходящее со страдальческим выражением лица. В последнем кадре другой мужчина помогает поднять безжизненного человека в ванну. Общая атмосфера напряженная и драматичная, что свидетельствует о жанре криминала или триллера.

Затем представьте, что посредине сериала вас спрашивают, что это за актер, 50/50 что ответите. А тут просто загрузили в языковую модель, она еще и биографическую справку дала:

Кто этот актер?

Reka Core: изображенный на фотографии актер действительно Лиам Каннингем, сыгравший сира Давоса Сиворта, также известного как Луковый рыцарь, в "Игре престолов". Судя по всему, декорация взята из одной из сцен сериала или рекламной фотографии, на которой он запечатлен в момент размышления или обсуждения.

Потом тестеры попросили написать, что за модель вертолета была в сериале и где была снята сцена:

- Какая модель вертолета?

Reka Core: Вертолет, изображенный на снимке, похоже, Bell 206, который можно опознать по одному несущему винту, хвостовому винту и форме фюзеляжа.

Bell 206 - семейство двухлопастных однодвигательных легких вертолетов общего назначения. Судя по длине фюзеляжа и размерам относительно грузовых контейнеров, это, скорее всего, LongRanger, который известен своей увеличенной длиной по сравнению с JetRanger.

- Где, скорее всего, снимается эта сцена?

Reka Core: Персонаж на переднем плане смотрит на визуализацию Большого адронного коллайдера (БАК) - ускорителя частиц, расположенного в ЦЕРНе недалеко от Женевы, Швейцария. Это самый большой и мощный в мире коллайдер частиц, наиболее известный благодаря открытию бозона Хиггса в 2012 году.

Как Reka Al связаны с Netflix?

Да никак ) Reka Al сразу в начале видео написали, что никак не связаны с Netflix, не спонсируют и не поддерживают его. Никаких нарушений не предполагается.

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? В своем телеграм канале НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.

Показать полностью
4

Вы уже видели рекламу из космоса?

Представьте, что на ночном небе среди звезд будет созвездие… рекламы, привлекающее внимание миллионов людей

Да, вы не ослышались, реклама выходит на новый уровень - бренды будут рекламироваться прямиком из космоса.

Ракета «Ангара» вывела на орбиту прототип спутников, которые будет транслировать рекламу, собираясь в скопления по несколько десятков штук.

Целая группа таких спутников будет кружить по орбите на высоте в 500 км, группируя логотипы и тексты, которые из Земли будут напоминать созвездия.

Всего-то 1 миллион долларов, и о вашем бренде узнает вся планета! Правда пока на небе будут сиять бренды, которые итак знает вся планета)

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.

Показать полностью 1
1

Два обновления за раз: Google Gemini 1.5 Pro и DALL-E 3

1) В  GPTs Dall-E от Open AI появились стили и соотношение сторон

Да, Dall-E 3 есть еще и в плагинах) Вот там без проблем можно выбрать стиль и aspect ratio

Да, Dall-E 3 есть еще и в плагинах) Вот там без проблем можно выбрать стиль и aspect ratio

2) Нейросеть от Google Gemini 1.5 Pro обновили и научили обрабатывать аудио

Теперь легко можно загрузить длинный подкаст и получить саммари - краткую выжимку на нужном языке, переконвертировать видео-курс в текст или загрузить лекцию, как на видео, и  Gemini 1.5 Pro  сделает тест по содержанию.

Подробнее про Gemini 1.5 Pro в этом посте

Как подключить Gemini

Что классно: 

  • Нейросеть хорошо распознает слова, тон, эмоции

  • Можно загрузить до 11 часов видео за раз

  • Добавили режим JSON и открыли API без листа ожидания

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.

Показать полностью 1 1
7

Нейросеть полноценный разработчик. Прощай Copilot

Devin - передовая нейросеть, которая в корне меняет представление о программировании.

Devin не просто ассистент, а полноценный разработчик программного обеспечения, оснащенный ИИ-агентами. Этот инновационный инструмент способен самостоятельно разрабатывать сложные приложения, находить и исправлять ошибки, а также обучать другие нейросети на уровне опытного middle-разработчика.

Чем Devin лучше Copilot?

Devin превосходит своих предшественников, таких как Copilot, представляя собой нечто большее, чем просто помощник в кодировании.

Он может успешно проходить собеседования и выполнять проекты на фрилансе, обрабатывая запросы и создавая на их основе полноценные базы данных и веб-сайты.

Интегрируя Devin в ваш репозиторий, вы получаете возможность непрерывного обучения ИИ. Например, во время тестирования Devin ознакомился с блогом и самостоятельно освоил работу с технологиями Stable Diffusion и ControlNet, демонстрируя потрясающую способность к самообучению.

На данный момент доступ к Devin ограничен и возможен только через лист ожидания. Имеет смысл записаться через этот лист и первыми попасть в бета-тест, где можно вдоволь потестировать инструмент на своих задачах, и раньше всех познакомиться с новой технологией.

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.

Показать полностью
3

Open AI опять дразнят! Новая нейросеть скопирует голос за 15 секунд

Open AI опять дразнят! Новая нейросеть скопирует голос за 15 секунд

Open AI опять решили подразнить обычных пользователей и предоставили ограниченный доступ к своей новой нейросети для преобразования текста в голос - Voice Engine. Она позволяет скопировать голос человека из 15-секундной аудиозаписи:

Подробнее в блоге OpenAI

Технология как и ElevenLabs поможет компаниям, преподавателям и инфлюенсерам обращаться к аудитории на любом языке собственным голосом, причем сохранив родной акцент.

Доступ к ней получили пока только серьезные компании HeyGen, Age of Learning и Dimagi.

HeyGen вообще красавчики - используют технологии как ElevenLabs, так и OpenAI, чтобы предложить своим пользователям более широкие возможности при создании видео с искусственным интеллектом.

Так вот, тестирование Voice Engine показало как можно использовать технологию во благо в различных отраслях. Вот несколько ранних примеров: перевод контента, помощь в чтении и поддержка лиц, не способных говорить, восстановление голоса людям с нарушениями речи, улучшение обслуживания в отдаленных районах.

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпишитесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.

Показать полностью 1
Отличная работа, все прочитано!