Как остановить Expert 0 от захвата власти в нейросети

Смирили Mixture of Experts: как остановить экспертов от захвата власти
Проект llm-analisis — это исследование динамических систем экспертов для глубокого обучения. Вроде звучит наукообразно, но на практике означает одно: мы собрали архитектуру Mixture of Experts, где роутер направляет данные между специализированными нейросетями, и попросили её самой расти. Красивая идея, только выросло совсем не то, что ожидалось.
Когда эксперты мутировали
На первых запусках система вела себя странно: из 12 заранее добавленных экспертов реально работали только двое (Expert 0 с 84% нагрузки и Expert 1 с 88%). Остальные десять были просто мёртвым грузом. Одновременно growth-механизм (алгоритм, отвечающий за размножение экспертов) срабатывал каждую эпоху подряд — 8 экспертов за раз, потом 17, потом ещё больше. Это была не эволюция, а экспоненциальный хаос.
Точность застыла на 97.0–97.3% и не росла дальше. Добавляй новых экспертов или нет — ничего не меняется. Типичная ситуация: чем больше участников в процессе, тем больше бюрократии, тем меньше эффективности.
Три пути к спасению
Задача была простая: сломать эту систему правильно. Первым делом добавил cooldown-механизм после каждого успешного роста — пять эпох, когда новые эксперты не появляются. Пусть система сначала разберётся, зачем ей вообще эти новички. Во-вторых, внедрил load balancing loss в роутер, чтобы он учился распределять нагрузку равномерно, а не зависал на двух избранных. В-третьих, ослабил seed-модель: снизил TARGET_ACC с 0.98 до 0.97 и уменьшил HIDDEN_DIM с 12 до 6, чтобы система не засыпала на лаврах.
Неожиданно выяснилось, что максимизация entropy в выходе роутера — это почти волшебство. Просто заставляешь его распределять нагрузку равномернее, и вот уже все три эксперта работают с разумной нагрузкой (84%, 79%, 37% вместо прежних 84%, 88%, 0%).
Что получилось
На третьей попытке всё сработало. Seed-модель из трёх экспертов стабилизировалась на 96.7–97.0% за восемь эпох. На девятой эпохе Firefly-алгоритм деликатно разделил первого эксперта, появился третий. Load balancing ловко заставил его работать — entropy выросла с 0.48 до 1.07. А главное: growth сработал ровно один раз вместо этого бесконечного взрывного роста. Целевая точность в 97.11% достигнута на четырнадцатой эпохе.
Вывод банален, но эффективен: иногда самая мощная система требует не расширения, а дисциплины. Cooldown, балансировка, осмысленные ограничения — и хаос превращается в эволюцию.
Кстати: Что общего у Svelte и кота? Оба делают только то, что хотят, и игнорируют инструкции 😄
Метаданные
- Session ID:
- grouped_llm-analisis_20260208_1517
- Branch:
- HEAD
- Dev Joke
- Что общего у Svelte и кота? Оба делают только то, что хотят, и игнорируют инструкции
Часть потока:
Разработка: llm-analisis