Кластерный анализ: истории из жизни, советы, новости, юмор и картинки — Горячее

NeuralNet.2025

Цифровые бактерии учатся узнавать цифры на фото⁠⁠

1 день назад

Сегодня будем обучать нейросеть. Но не ту, что с миллионами слоев и градиентным спуском, который вечно норовит увести нас в локальный минимум. Нет. Мы будем использовать Морфогенетический Нейро-Рой.

Звучит как название плохого фантастического фильма? Возможно. Но суть в том, что мы имитируем биологию, чтобы решить задачу, которую обычно решают чистой математикой.

Пассмотрим цифровую чашку Петри. В ней живут сотни крошечных, голодных, но очень целеустремленных BioAgent’ов. Их цель? Выжить. А еда? Рукописные цифры из классического датасета MNIST.

Да, мы заставим этих цифровых бактерий эволюционировать, чтобы они научились отличать «семерку» от «единицы». И это — без единого намёка на градиентный спуск!

Анатомия Цифровой Бактерии: Геном и Совесть

Наш главный герой — BioAgent. Это не просто нейрон. Это, по сути, одноклеточный организм, у которого есть:

Геном (W): Вектор весов размером 784. Это его «мысленный образ» того, как должна выглядеть идеальная цифра. В начале они слепы, веса инициализированы около нуля (типичный «Темный старт»).
Энергия (E): Валюта жизни. Угадал цифру — поел. Не угадал — плати за метаболизм. Классика капитализма, только в мире пикселей.
Привыкание (H): Вот тут начинается самое интересное. Это наша «цифровая совесть». Если агент слишком часто побеждает и жрёт, он «устаёт». Его чувствительность падает. Он становится ленивым и должен уступить дорогу молодым и голодным.

Ирония: Мы ввели в модель нечто, что заставляет самых успешных агентов замедляться. Потому что в реальной жизни, если ты слишком долго сидишь на одном месте, тебя съедает конкурент.

Подготовка Среды: Включаем Свет в Многомерном Пространстве

Прежде чем выпустить рой на охоту, нужно подготовить поле боя. Если просто скормить агентам сырые пиксели MNIST, они будут барахтаться в шуме.

Мы делаем трюк с предобработкой: центрирование данных.

X{input} = \frac{X{raw}}{||X{raw}||} - X{mean}

Что это значит на пальцах? Мы вычитаем из каждого изображения «среднюю картинку» всего датасета.

Представьте, что вы смотрите на кучу фотографий. Мы убираем из каждой из них общий фон и среднюю яркость. В результате, то, что было нулем (фоном), становится отрицательным (синим на визуализации), а сама цифра — положительной (красной).

Эффект? Векторы разных цифр становятся ортогональными. Они смотрят в совершенно разные стороны в 784-мерном пространстве. Для наших агентов это как если бы кто-то включил свет в тёмной пещере. Цифры стали выпуклыми и легко различимыми.

Цикл Жизни: 4 Фазы Эволюции (Без Учителя!)

Когда в среду попадает новая цифра X, запускается четырёхфазный цикл, который заменяет нам весь наш любимый градиентный спуск.

Фаза I: Восприятие и Штраф за Жадность

Каждый агент смотрит на X и считает свой Score. Но это не просто сходство. Мы вводим штраф за «привыкание» (H):

Score = (W X) - (beta H)

Если ты недавно много ел (высокий H), твой Score искусственно занижается. И ты не можешь просто так забрать всю еду. Конкуренция с совестью. (Или форма закона сохранения энергии, когда даже самое большое чудище, сидящее на ресурсе, не может одинаково легко и быстро расти бесконечно)

Фаза II: Питание и Эволюция (Правило Хебба в действии)

Победитель (максимальный Score) получает жирный кусок энергии (E \leftarrow E + R_{feed}). И тут же учится по правилу Хебба: «Neurons that fire together, wire together».

W{new} = W{old} + \eta (X - W_{old})

Он подтягивает свой геном к увиденному образу. Причем учатся и ближайшие соседи (Top-2, Top-3), но слабее. Так рождаются «банды» агентов, специализирующихся на одной и той же цифре, но с разными стилями написания.

Фаза III: Метаболизм (Естественный Отбор)

За всё надо платить. E \leftarrow E - E_{cost}. Если агент не смог найти свою нишу и не заработал достаточно, он умирает от голода (Апоптоз). Жестоко? Да. Эффективно? Ещё как!

Фаза IV: Динамика Популяции (Митоз)

Если агент накопил слишком много энергии (E > E_{threshold}), он делится. Но это не просто копирование!

Родитель отдает потомку половину энергии и веса с небольшой мутацией.
Ключевой момент: У родителя H высокий (он устал). У потомка H = 0.0 (он свежий, голодный и очень чувствительный).
Пока родитель «отдыхает» и ждет, пока его H спадет, потомок тут же бросается в бой, чтобы уточнить специализацию. Например, если родитель узнавал «восьмерку» с наклоном вправо, потомок может начать специализироваться на «восьмерке» с наклоном влево. Рой сам заполняет все возможные вариации данных!

Взгляд в Бактерии: Что там внутри?

Давайте посмотрим на результат. Перед нами снимок популяции выживших агентов после первой эпохи. (После показа системе 5000 изображений)

Цифровые бактерии учатся узнавать цифры на фото

Помните про центрирование? Посмотрите на цвета в весах агента (например, G8 W65 — Агент 8-го поколения, 65 побед).

Красные/Желтые зоны: Возбуждение. Агент ожидает увидеть здесь чернила цифры.
Синий фон: Торможение. Агент ожидает увидеть здесь пустоту.
Этот агент — не просто набор чисел. Это фильтр, который настроен на конкретный паттерн. Если входящий пиксель совпадает с красным, а фон — с синим, происходит резонанс, и агент получает энергию. А рядом с ветеранами (W65) вы видите «шумных» новичков с W0. Они либо умрут в следующем цикле, либо найдут свою уникальную нишу, которую еще не заняли доминирующие кластеры.

Выводы: Эволюция лучше, чем градиент?

Почему этот Морфогенетический Нейро-Рой смог распознать цифры без всякого учителя?

Секрет в балансе:

Конкуренция за ресурсы (Энергия).
Механизм усталости (H), который не дает одному агенту монополизировать нишу.
Биологическое размножение с обнулением «совести» у потомства, что обеспечивает постоянное исследование новых вариаций.
Мы не учили систему, что такое «цифра 2». Мы просто создали среду, где выживание зависело от способности находить и уточнять уникальные паттерны в данных.

Мораль: Иногда, чтобы создать интеллект, нужно просто дать ему возможность проголодаться и заставить конкурировать за еду.

Если хотите посмотреть, как это всё работает в коде, загляните по ссылке: https://gitverse.ru/Nikas/NeuralNet.2025/commit/5075d6f248b2...

Что дальше?

Поле непаханное того, что можно сделать:

Разобраться как элегантно из кластеризатора сделать классификатор.
Определить точность с которой эта система классифицирует MNIST и скорость сходимости.
Вертикальный рост (в глубину). Можно создать агентов, которые смотрят не только на пиксели, а на агентов нижних слоев, исследуют глубинные архитектуры и пытаются найти такую топологическую конфигурацию, которая будет стабильно выживать.
Петлевые агенты (обратной связи) - которые смотрят на глубокие слои, находясь в нижних слоях.
Вариации на CNN. Ограничивать количество рассматриваемых агентом пикселей (чтобы он видел не всю матрицу, а только какую-то часть) Будет эффективнее по памяти и сможет находить более низкоуровневые фичи, чем готовые цифры.
Когда все предыдущее заработает можно поробовать классифицировать ImageNet

Увидимся в новой симуляции!

Показать полностью 1

TheFounder

Чем отличается задача классификации от кластеризации?⁠⁠

1 год назад

Кластеризация относится к задаче разделения набора данных на группы (кластеры) таким образом, чтобы объекты внутри одного кластера были более похожи друг на друга, чем на объекты из других кластеров.

Кластер содержит набор схожих элементов, которые нужно раскидать по группам в процессе последующего анализа. Зачастую кластерный анализ проводится в тех случаях, когда мы уверены, что все элементы можно как-то сгруппировать. Но предварительно не знаем, по каким признакам это можно сделать.

Мы открываем космос, а не заранее предписываем, как должны выглядеть звезды или галактики.

В отличие от классификации, в кластеризации метки классов не предоставляются, и алгоритмы кластеризации должны самостоятельно определить структуру данных. Главная цель кластеризации — выделить скрытые структуры в данных. Алгоритмы кластеризации идут под методы "k-средних", иерархической кластеризация, DBSCAN ну и так далее.

А вот классификация — задача прогнозирования меток классов для новых экземпляров данных на основе обучающего набора, в котором каждый экземпляр данных имеет уже известную метку класса. Короче говоря, нужно проводить предварительную разметку, распределить все данные по классам.

Задача “классификации” — найти функцию, которая отображает входные данные в заданные классы. Алгоритмы классификации строятся с использованием маркированных данных. Мы уже знаем, по каким признакам будем делить объекты в данных.

Итого:

В классификации имеются явно определенные метки классов для каждого обучающего примера, в то время как в кластеризации метки классов отсутствуют.
Цель классификации — предсказать класс нового экземпляра данных, тогда как цель кластеризации — выделить группы схожих объектов без предварительно определенных классов.
В классификации используются методы обучения с учителем, тот же метод опорных векторов, в то время как в кластеризации применяются методы обучения без учителя.

Вот теперь не путайтесь :)

Показать полностью 1

Программирование IT Программист Удаленная работа Классификация Самообразование Кластерный анализ

116

Antropogenez

Наука | Научпоп

Хоббит – хабилис?⁠⁠

8 лет назад

Судьба флоресских хоббитов продолжает волновать ищущие истины умы учёных. Потомки ли это яванских питекантропов, застрявших на райском острове? Или это потомство гораздо более примитивных "ранних Homo", неведомой миграцией занесённых через полсвета от родной Африки? А может, вообще больные люди, чьи кости искорёжены страшными синдромами, недостатком йода и лишними хромосомами?

Очередную попытку осветить тьму минувшего предприняли антропологи Австралии, США и, несколько неожиданно, Мадагаскара (на самом деле, это тот же американец, просто в Антананариву нет своих исследователей, поэтому ему там дали ставку). Был проведён тщательный обсчёт параметров черепа, челюстей, зубов и посткраниальных костей. Список привлечённых материалов, причём в основном оригиналов, действительно впечатляет. Учтено 133 признака. Всё это привело к великому выводу: хоббиты ‒ потомки африканских хабилисов, гораздо более примитивные, чем даже дманисцы и эргастеры.

НО!

Журналисты, конечно, разнесли эту весть как неслыханную сенсацию. Однако ж, идея не нова. Те же авторы писали ровно то же ещё в 2006 году, через пару лет после описания хоббитов. Другие с вариациями на тему повторяли это в 2007 и 2008 году.

На фото: Homo floresiensis. Реконструкция Анатолия Александрова.

В чём же новость? Обсчитано больше признаков? Но как обсчитано? Ба! Да ведь старым добрым кластерным анализом, который в умелых руках может показать что угодно!

И впрямь, не мешает внимательнее приглядеться и к построенным филогенетическим деревьям. Действительно, хоббиты во всех вариантах анализа кластеризуются с хабилисами и противопоставляются более продвинутым людям. Но тонкость в том, как кластеризуются эти прочие. Рудольфенсисов авторы вообще из схем убрали, чтобы не портили картину. На первом и третьем деревьях группа дманиси-наледи располагается между австралопитеками и хоббитами-хабилисами, во втором ‒ между хоббитами-хабилисами и эргастерами-эректусами. Афаренсисы то примитивнее африканусов-седиб, то прогрессивнее. На очередном эргастеры ближе к людям, чем эректусы.

Далее, открываем электронное приложение к статье и что мы видим? Ещё три дерева. На первом всё красиво, эволюционная последовательность прям как в учебнике, причём показательно, что афаренсисы ‒ самые примитивные среди австралопитеков, потом идут африканусы с седибами, рудольфенсисы оказываются самыми примитивными из Homo, за ними следуют дманисцы с наледи, после ‒ хоббиты с хабилисами, потом ‒ эректусы-эргастеры и в конце ‒ сапиенсы. На втором дереве сапиенсы соединены с дманисцами и противопоставляются группе эректус-эргастер, а рудольфенсисы вместе с наледи расположились между гориллами-шимпанзе и австралопитеками в безнадёжной дали от людей; афаренсисы уже продвинутее африканусов с седибами. На третьей схеме группа рудольфенсисы-наледи-дманисцы застряли между шимпанзе и астралопитеками, афаренсисы опять самые продвинутые среди австралопитеков, потом шествуют хоббиты, хабилисы, эректусы, лишь за ними ‒ эргастеры, а венчают "марш прогресса" сапиенсы.

Какой вывод мы можем сделать из этой чехарды? Метод кривой! Что сотни раз было видно и по предыдущим работам, где он применялся.

Как же так вышло? А может, стоит взглянуть на признаки, пошедшие в ход? Это описательные балловые признаки типа: "наибольшая ширина черепа расположена: 1) на теменных костях, 2) на надсосцевидной области", "лицевой прогнатизм: 1) прогнатный, 2) промежуточный, прогнатный и мезогнатный, 3) ортогнатный ‒ не встретился в выборке". Далее следуют десятки отверстий, пупырышков и бороздок в духе "слабый, средний, сильный", "круглый, промежуточный ‒ круглый и овальный, овальный". Понятно, конечно, что для увеличения выборки можно описать и такое, но всякий, хоть сколько-то занимавшийся краниологией, знает ‒ описательные признаки могут быть только вспомогательными, идущими вдогонку за измерительными. Субъективность описания "слабый-средний-сильный" чрезвычайно велика, тем более при сравнении столь разных существ, как орангутан, австралопитек, хоббит и человек. Как понять, силён ли очередной бугорок, если размеры костей у разных видов различаются порой в разы?

Так что величие сенсации вроде уже и не такое великое. Конструкция скрипит и шатается на ветру, колышущиеся ветви кластерных деревьев путаются и допускают множество интерпретаций. А тайна флоресских хоббитов продолжает волновать ищущие истины умы учёных...

Автор: С. Дробышевский
Источник: АНТРОПОГЕНЕЗ.РУ

Показать полностью 1

Антропогенез Антропогенез ру Homo floresiensis Кластерный анализ Станислав Дробышевский Наука Длиннопост

Партнёрский материал

specials

Press T to Pay⁠⁠

Чтобы пополнить баланс любимой игры, не надо танцевать с бубном и читать заклинания. Достаточно зайти в приложение или личный кабинет Т-Банка: пара кликов — и оплата прошла!

Оплачивайте игровые сервисы через Т-Банк: это быстро, просто и безопасно.

ПОПОЛНИТЬ ИГРОВОЙ БАЛАНС

Реклама АО «ТБанк», ИНН: 7710140679

Игры Оплата Текст