BorisovAI
Все проекты

VoiceInput — Голосовой ввод текстаv1.1.0

Бесплатный офлайн-инструмент голосового ввода для Windows с тремя ASR-движками: GigaAM (3.3% WER, лучшее качество для русского), Whisper (мультиязычный, GPU) и Vosk (быстрый офлайн). 90% снижение ошибок распознавания, 93 автотеста, push-to-talk в любое приложение. Open source, MIT.

PythonGigaAMfaster-whisperVoskONNX RuntimePyTorchSilero VADTransformersT5tkinterPyInstaller

Голосовой ввод без облака и подписок

VoiceInput 1.1.0 — бесплатный инструмент распознавания речи для Windows, который работает полностью офлайн. Зажмите горячую клавишу, произнесите текст — и он мгновенно появится в любом приложении: мессенджере, редакторе, IDE или браузере.

Никакие данные не покидают ваш компьютер. Никаких учётных записей, подписок и ограничений по времени.


Что нового в 1.1.0

  • GigaAM — новый ASR-движок для русского языка. 3.3% WER (ошибок) против 32.6% у Whisper base — это снижение ошибок на 90%.
  • Три движка распознавания на выбор: GigaAM (качество), Whisper (мультиязычный), Vosk (скорость).
  • 93 автоматических теста — полное покрытие всех компонентов: транскрипция, коррекция, фильтрация, пайплайн.
  • Переключение ASR-бэкенда из трея — меняйте движок и модель без перезапуска.
  • Выбор аудиоустройства — переключайте микрофон из меню трея.

Результаты тестирования

Качество распознавания проверено на аудиокнижном корпусе (русский литературный текст различной сложности): короткие фразы 6–7 секунд, длинные отрывки 25–30 секунд, редкие слова.

Качество распознавания (WER — процент ошибок в словах)

ДвижокWERСнижение ошибокСкоростьПримечание
GigaAM v3-e2e-rnnt3.3%90.0%0.66 сЛучшее качество + скорость, пунктуация
GigaAM v3-rnnt3.3%90.0%0.82 сЛучшее качество
GigaAM v3-e2e-ctc4.2%87.2%1.08 сХороший баланс
Whisper large-v3-turbo (GPU)7.9%75.7%0.44 сМультиязычный
Vosk small13.0%60.0%0.75 сМинимальный размер (50 МБ)
Whisper base (CPU)32.6%0.45 сБазовая линия v1.0

GigaAM на CPU превосходит все модели Whisper на GPU по качеству русского текста (3.3% против 7.9% WER).

Автоматическое тестирование

КатегорияТестовЧто проверяется
Транскрипция (Whisper)15RU/EN, стриминг, мультиязычный режим, подсказки, тишина
Полный пайплайн9Аудио → ASR → коррекция → текст, перевод RU→EN
Коррекция T511Исправление ошибок, цепочка коррекций, выгрузка модели
Фильтрация галлюцинаций14Известные фразы, деллуппинг, аномалии длительности
Обработка аудио11Нормализация, обрезка тишины, ВЧ-фильтр, крайние случаи
Стриминговый пайплайн7VAD, жизненный цикл, обработка чанков
Интеграционные8Silero VAD, noisereduce, конфигурация v2
Итого93100% прошли

Ключевые преимущества

  • 100% офлайн и приватно — голос обрабатывается локально, без отправки в облако. Полная конфиденциальность из коробки.
  • 90% снижение ошибок — GigaAM (Сбер, 700 тыс. часов обучения) даёт 3.3% WER для русского языка.
  • Три ASR-движка — GigaAM для качества, Whisper для мультиязычности, Vosk для скорости.
  • GPU и CPU — CUDA-ускорение для максимальной скорости, CPU-сборка для любого ПК.
  • 93 автотеста — каждый компонент проверен: от обработки аудио до полного пайплайна.
  • Бесплатно и с открытым кодом — MIT-лицензия. Используйте, модифицируйте, распространяйте без ограничений.

Как это работает

  1. Запустите VoiceInput — иконка микрофона появится в системном трее
  2. Зажмите горячую клавишу (по умолчанию LShift + RShift)
  3. Говорите — на экране появляется текст в реальном времени
  4. Отпустите клавишу — готовый текст вставляется в активное поле

Модели загружаются автоматически при первом запуске. После этого интернет не нужен.


Режимы распознавания

РежимДвижокЯзыкиКачество (WER)Скорость
Auto (по умолчанию)GigaAM (CPU) / Whisper (GPU)RU / Мульти3.3% / 7.9%0.66 с / 0.44 с
GigaAMGigaAM ONNXТолько RU3.3%0.66 с
Whisperfaster-whisperRU, EN, авто, перевод7.9–32.6%0.44–2.3 с
VoskVosk offlineRU13.0%0.75 с

Возможности

Распознавание речи

  • GigaAM (Сбер) — ONNX-модель, обученная на 700 тыс. часов русской речи. 6 вариантов моделей.
  • faster-whisper (CTranslate2) — оптимизированный Whisper. Модели: base, small, medium, large-v3-turbo.
  • Vosk — компактный офлайн-движок (50 МБ), идеален для коротких фраз.
  • Стриминговый конвейер с Silero VAD — текст появляется по мере речи
  • Фильтрация галлюцинаций Whisper (известные артефакты удаляются автоматически)

Обработка текста

  • Коррекция T5 (bond005/ruT5-ASR-large) — исправляет ошибки ASR для русского языка
  • Цепочка коррекций (Chain-of-Correction) для сложных предложений
  • Пользовательский словарь для профессиональных терминов

Аудио и интерфейс

  • Предобработка аудио: преэмфазис, нормализация, ВЧ-фильтр 80 Гц, шумоподавление, обрезка тишины
  • Настраиваемые горячие клавиши (LShift+RShift, Win+Shift и др.)
  • Полупрозрачное оверлей-окно с прогрессом транскрипции
  • Выбор микрофона и ASR-бэкенда из меню в трее
  • Автозапуск с Windows

Два варианта сборки

ВариантРазмерОписание
CUDA~2.4 ГБПолная поддержка GPU. Максимальная скорость на видеокартах NVIDIA.
CPU~800 МБРаботает на любом ПК без видеокарты.

AI-модели загружаются автоматически при первом запуске и кэшируются локально.


Сравнение с аналогами

ПараметрVoiceInput 1.1CamoVoiceHandySpeechnotes
ЦенаБесплатно$24.99БесплатноFreemium
ОфлайнДаДаДаНет
WER (русский)3.3%Нет данныхНет данныхНет данных
ASR-движки3 (GigaAM, Whisper, Vosk)111 (облако)
Открытый кодMITНетДаНет
GPU-ускорениеCUDAНетНетОблако
Коррекция текстаT5 нейросетьНетНетНет
Автотесты93 тестаНет данныхНет данныхНет данных
Смешанный RU+ENДаНетНетНет
СтримингРеальное времяНетНетДа

Системные требования

МинимумРекомендуется
ОСWindows 10/11Windows 11
ОЗУ8 ГБ16 ГБ
GPUНе требуется (CPU-сборка)NVIDIA 6+ ГБ VRAM
CUDACUDA 12.x
Диск~3 ГБ~5 ГБ (с моделями)

Технологии

  • GigaAM (Сбер) — ONNX-модель для русского ASR, обученная на 700 тыс. часов речи
  • faster-whisper — оптимизированный движок Whisper на базе CTranslate2
  • Vosk — компактный офлайн ASR-движок (Kaldi)
  • Silero VAD — нейросетевой детектор голосовой активности
  • T5 (bond005/ruT5-ASR-large) — модель коррекции для русского ASR
  • ONNX Runtime — кроссплатформенный инференс для GigaAM
  • PyTorch + CUDA — GPU-ускорение инференса
  • PyInstaller — упаковка в standalone EXE

Скриншоты

VoiceInput — Голосовой ввод текста

Оцените материал

0/1000