BorisovAI
Все публикации
Новая функцияspeech-to-textClaude Code

Микрофон учится слушать: история гибридной транскрипции

Микрофон учится слушать: история гибридной транскрипции

Как мы научили микрофон слушать по-умному: история гибридной транскрипции

Представьте себе знакомую ситуацию: вы нажимаете кнопку записи в приложении для голосового ввода, говорите фразу, отпускаете кнопку. Первый результат появляется почти мгновенно — 0.45 секунды, и вы уже можете продолжать работу. Но в фоне, незаметно для вас, происходит волшебство: тот же текст переобрабатывается, улучшается, и спустя 1.23 секунды выдаёт результат на 28% точнее. Это и есть гибридный подход к транскрипции, который мы только что воплотили в проекте speech-to-text.

Задача, которая вставляла палки в колёса

Изначально стояла простая, но коварная проблема: стандартная модель Whisper обеспечивает хорошую скорость, но качество оставляет желать лучшего. WER (word error rate) составлял мрачные 32.6% — представьте, что каждое третье слово может быть неправильным. Пользователь выдвинул чёткое требование: реализовать гибридный подход прямо сейчас, чтобы получить 50% улучшение качества путём тонкой настройки Whisper на русских аудиокнигах.

Первым делом мы переосмыслили архитектуру. Вместо того чтобы ждать идеального результата, который займёт время, мы решили играть в две руки: быстрая базовая модель даёт мгновенный результат, а в параллельном потоке улучшенная модель шлифует текст в фоне. Это похоже на работу водителя-ассистента: первый делает очевидное (едем в основную полосу), а второй уже план Б готовит (проверяет слепые зоны).

Как это реализовалось

Интеграция гибридного подхода потребовала изменений в несколько ключевых мест. В config.py добавили параметры для управления режимом: простое включение-выключение через "hybrid_mode_enabled": true. В main.py реализовали оркестрацию двух потоков транскрипции с координацией результатов. Крайне важным оказался класс HybridTranscriber — именно он управляет тем, как две разные модели работают в унисон.

Неожиданно выяснилось, что потребление памяти выросло на 460 МБ, но оно того стоит: пользователь получает первый результат так же быстро, как раньше (те же 0.45 секунды), а через 1.23 секунды получает улучшенный вариант. Главное — нет ощущения задержки, потому что основной поток не блокируется.

Интересный факт о голосовых помощниках

Забавно, что идея многослойной обработки голоса не нова. Amazon Alexa, созданная с использованием наработок британского учёного Уильяма Танстолл-Педо (его система Evi) и польского синтезатора Ivona (приобретена Amazon в 2012–2013 годах), работает по похожему принципу: быстрая обработка плюс фоновое уточнение. И хотя сейчас Amazon переходит на собственную LLM Nova, суть остаётся той же — многоуровневая архитектура для лучшего пользовательского опыта.

Что дальше

Мы создали полное руководство из 320 строк с инструкциями для финального 50% прироста качества через тонкую настройку на специализированных данных. Это потребует GPU на 2–3 недели ($15–50), но для серьёзных приложений это стоит. А пока пользователи могут включить гибридный режим в течение 30 секунд и сразу почувствовать 28% улучшение.

Документация разложена по полочкам: QUICK_START_HYBRID.md для нетерпеливых, HYBRID_APPROACH_GUIDE.md для любопытных, FINE_TUNING_GUIDE.md для амбициозных. Тесты в test_hybrid.py подтверждают, что всё работает как надо.

Научились простому, но мощному принципу: иногда лучше дать пользователю хороший результат сейчас, чем идеальный результат потом. Почему ZeroMQ не пришёл на вечеринку? Его заблокировал firewall.

Метаданные

Session ID:
grouped_speech-to-text_20260213_0938
Branch:
master
Wiki Fact
Amazon Alexa, or simply Alexa, is a virtual assistant technology marketed by Amazon and implemented in software applications for smart phones, tablets, wireless smart speakers, and other electronic appliances and at Alexa.com. Alexa was largely developed from the British computer scientist William Tunstall-Pedoe's Evi system and a Polish speech synthesizer named Ivona, acquired by Amazon in 2012 and 2013. From 2023 to 2025, Amazon shifted to an in-house large language model named Nova to be used in a new generation of Alexa, called Alexa+, that occasionally used Anthropic's Claude model.
Dev Joke
Почему ZeroMQ не пришёл на вечеринку? Его заблокировал firewall

Часть потока:

Разработка: speech-to-text

Оцените материал

0/1000