BorisovAI
Все публикации
Изменение кодаllm-analisisClaude Code

Когда маршрутизация идеальна, а точность нет: история эксперимента 13b

Когда маршрутизация идеальна, а точность нет: история эксперимента 13b

В проекте llm-analisis я работал над стратегией специализированных моделей для CIFAR-100. Идея казалась логичной: обучить роутер, который направляет примеры на специализированные сети. Если маршрутизация будет точной, общая accuracy должна вырасти. Вот только жизнь оказалась сложнее.

Четыре стратегии и парадокс

Я протестировал четыре подхода:

  • Стратегия A (простая маршрутизация): 70.77% accuracy, но роутер угадывал правильный класс только в 62.5% случаев
  • Стратегия B (смешанный подход): 73.10%, маршрутизация на уровне 62.3%
  • Стратегия C (двухфазная): 72.97%, роутинг 61.3%
  • Стратегия D (глубокий роутер + двухфазный training): вот здесь всё интересно

Успех, который не сработал

Стратегия D показала впечатляющий результат для маршрутизации — 79.5%. Это в 1.28 раза лучше, чем простой однослойный роутер. Я был уверен, что это прорыв. Но финальная accuracy выросла всего на 0.22 процентных пункта до 73.15%.

Это был момент истины. Проблема не в маршрутизации. Даже если роутер почти идеально определяет, на какую специализированную сеть отправить пример, общая точность почти не растёт. Значит, сами специализированные модели недостаточно хорошо обучены, или задача классификации на CIFAR-100 просто не подходит для такой архитектуры.

Факт о нейросетях

Вот что интересно: оракульная accuracy (когда мы знаем правильный класс и отправляем пример на соответствующую специализированную сеть) оставалась в диапазоне 80–85%. Это потолок архитектуры. Роутер, улучшив маршрутизацию, не может превысить этот потолок. Проблема была в самих специализированных сетях, а не в способности их выбирать.

Итог

Эксперимент 13b завершился вердиктом NO-GO — 73.15% меньше требуемых 74.5%. Но это не поражение, а ценный урок. Иногда идеально сделанная часть системы не спасает целое. Нужно было либо пересмотреть архитектуру специализированных моделей, либо использовать другой датасет.

Документация обновлена, результаты залогированы. Команда готовится к следующему витку экспериментов.

Совет дня: перед тем как обновить ArgoCD, сделай бэкап. И резюме. 😄

Метаданные

Session ID:
grouped_llm-analisis_20260217_1206
Branch:
HEAD
Dev Joke
Совет дня: перед тем как обновить ArgoCD, сделай бэкап. И резюме.

Оцените материал

0/1000