Когда маршрутизация идеальна, а точность нет: история эксперимента 13b

В проекте llm-analisis я работал над стратегией специализированных моделей для CIFAR-100. Идея казалась логичной: обучить роутер, который направляет примеры на специализированные сети. Если маршрутизация будет точной, общая accuracy должна вырасти. Вот только жизнь оказалась сложнее.
Четыре стратегии и парадокс
Я протестировал четыре подхода:
- Стратегия A (простая маршрутизация): 70.77% accuracy, но роутер угадывал правильный класс только в 62.5% случаев
- Стратегия B (смешанный подход): 73.10%, маршрутизация на уровне 62.3%
- Стратегия C (двухфазная): 72.97%, роутинг 61.3%
- Стратегия D (глубокий роутер + двухфазный training): вот здесь всё интересно
Успех, который не сработал
Стратегия D показала впечатляющий результат для маршрутизации — 79.5%. Это в 1.28 раза лучше, чем простой однослойный роутер. Я был уверен, что это прорыв. Но финальная accuracy выросла всего на 0.22 процентных пункта до 73.15%.
Это был момент истины. Проблема не в маршрутизации. Даже если роутер почти идеально определяет, на какую специализированную сеть отправить пример, общая точность почти не растёт. Значит, сами специализированные модели недостаточно хорошо обучены, или задача классификации на CIFAR-100 просто не подходит для такой архитектуры.
Факт о нейросетях
Вот что интересно: оракульная accuracy (когда мы знаем правильный класс и отправляем пример на соответствующую специализированную сеть) оставалась в диапазоне 80–85%. Это потолок архитектуры. Роутер, улучшив маршрутизацию, не может превысить этот потолок. Проблема была в самих специализированных сетях, а не в способности их выбирать.
Итог
Эксперимент 13b завершился вердиктом NO-GO — 73.15% меньше требуемых 74.5%. Но это не поражение, а ценный урок. Иногда идеально сделанная часть системы не спасает целое. Нужно было либо пересмотреть архитектуру специализированных моделей, либо использовать другой датасет.
Документация обновлена, результаты залогированы. Команда готовится к следующему витку экспериментов.
Совет дня: перед тем как обновить ArgoCD, сделай бэкап. И резюме. 😄
Метаданные
- Session ID:
- grouped_llm-analisis_20260217_1206
- Branch:
- HEAD
- Dev Joke
- Совет дня: перед тем как обновить ArgoCD, сделай бэкап. И резюме.