VoiceInput — Голосовой ввод текстаv1.1.0
Бесплатный офлайн-инструмент голосового ввода для Windows с тремя ASR-движками: GigaAM (3.3% WER, лучшее качество для русского), Whisper (мультиязычный, GPU) и Vosk (быстрый офлайн). 90% снижение ошибок распознавания, 93 автотеста, push-to-talk в любое приложение. Open source, MIT.
Голосовой ввод без облака и подписок
VoiceInput 1.1.0 — бесплатный инструмент распознавания речи для Windows, который работает полностью офлайн. Зажмите горячую клавишу, произнесите текст — и он мгновенно появится в любом приложении: мессенджере, редакторе, IDE или браузере.
Никакие данные не покидают ваш компьютер. Никаких учётных записей, подписок и ограничений по времени.
Что нового в 1.1.0
- GigaAM — новый ASR-движок для русского языка. 3.3% WER (ошибок) против 32.6% у Whisper base — это снижение ошибок на 90%.
- Три движка распознавания на выбор: GigaAM (качество), Whisper (мультиязычный), Vosk (скорость).
- 93 автоматических теста — полное покрытие всех компонентов: транскрипция, коррекция, фильтрация, пайплайн.
- Переключение ASR-бэкенда из трея — меняйте движок и модель без перезапуска.
- Выбор аудиоустройства — переключайте микрофон из меню трея.
Результаты тестирования
Качество распознавания проверено на аудиокнижном корпусе (русский литературный текст различной сложности): короткие фразы 6–7 секунд, длинные отрывки 25–30 секунд, редкие слова.
Качество распознавания (WER — процент ошибок в словах)
| Движок | WER | Снижение ошибок | Скорость | Примечание |
|---|---|---|---|---|
| GigaAM v3-e2e-rnnt | 3.3% | 90.0% | 0.66 с | Лучшее качество + скорость, пунктуация |
| GigaAM v3-rnnt | 3.3% | 90.0% | 0.82 с | Лучшее качество |
| GigaAM v3-e2e-ctc | 4.2% | 87.2% | 1.08 с | Хороший баланс |
| Whisper large-v3-turbo (GPU) | 7.9% | 75.7% | 0.44 с | Мультиязычный |
| Vosk small | 13.0% | 60.0% | 0.75 с | Минимальный размер (50 МБ) |
| Whisper base (CPU) | 32.6% | — | 0.45 с | Базовая линия v1.0 |
GigaAM на CPU превосходит все модели Whisper на GPU по качеству русского текста (3.3% против 7.9% WER).
Автоматическое тестирование
| Категория | Тестов | Что проверяется |
|---|---|---|
| Транскрипция (Whisper) | 15 | RU/EN, стриминг, мультиязычный режим, подсказки, тишина |
| Полный пайплайн | 9 | Аудио → ASR → коррекция → текст, перевод RU→EN |
| Коррекция T5 | 11 | Исправление ошибок, цепочка коррекций, выгрузка модели |
| Фильтрация галлюцинаций | 14 | Известные фразы, деллуппинг, аномалии длительности |
| Обработка аудио | 11 | Нормализация, обрезка тишины, ВЧ-фильтр, крайние случаи |
| Стриминговый пайплайн | 7 | VAD, жизненный цикл, обработка чанков |
| Интеграционные | 8 | Silero VAD, noisereduce, конфигурация v2 |
| Итого | 93 | 100% прошли |
Ключевые преимущества
- 100% офлайн и приватно — голос обрабатывается локально, без отправки в облако. Полная конфиденциальность из коробки.
- 90% снижение ошибок — GigaAM (Сбер, 700 тыс. часов обучения) даёт 3.3% WER для русского языка.
- Три ASR-движка — GigaAM для качества, Whisper для мультиязычности, Vosk для скорости.
- GPU и CPU — CUDA-ускорение для максимальной скорости, CPU-сборка для любого ПК.
- 93 автотеста — каждый компонент проверен: от обработки аудио до полного пайплайна.
- Бесплатно и с открытым кодом — MIT-лицензия. Используйте, модифицируйте, распространяйте без ограничений.
Как это работает
- Запустите VoiceInput — иконка микрофона появится в системном трее
- Зажмите горячую клавишу (по умолчанию LShift + RShift)
- Говорите — на экране появляется текст в реальном времени
- Отпустите клавишу — готовый текст вставляется в активное поле
Модели загружаются автоматически при первом запуске. После этого интернет не нужен.
Режимы распознавания
| Режим | Движок | Языки | Качество (WER) | Скорость |
|---|---|---|---|---|
| Auto (по умолчанию) | GigaAM (CPU) / Whisper (GPU) | RU / Мульти | 3.3% / 7.9% | 0.66 с / 0.44 с |
| GigaAM | GigaAM ONNX | Только RU | 3.3% | 0.66 с |
| Whisper | faster-whisper | RU, EN, авто, перевод | 7.9–32.6% | 0.44–2.3 с |
| Vosk | Vosk offline | RU | 13.0% | 0.75 с |
Возможности
Распознавание речи
- GigaAM (Сбер) — ONNX-модель, обученная на 700 тыс. часов русской речи. 6 вариантов моделей.
- faster-whisper (CTranslate2) — оптимизированный Whisper. Модели: base, small, medium, large-v3-turbo.
- Vosk — компактный офлайн-движок (50 МБ), идеален для коротких фраз.
- Стриминговый конвейер с Silero VAD — текст появляется по мере речи
- Фильтрация галлюцинаций Whisper (известные артефакты удаляются автоматически)
Обработка текста
- Коррекция T5 (bond005/ruT5-ASR-large) — исправляет ошибки ASR для русского языка
- Цепочка коррекций (Chain-of-Correction) для сложных предложений
- Пользовательский словарь для профессиональных терминов
Аудио и интерфейс
- Предобработка аудио: преэмфазис, нормализация, ВЧ-фильтр 80 Гц, шумоподавление, обрезка тишины
- Настраиваемые горячие клавиши (LShift+RShift, Win+Shift и др.)
- Полупрозрачное оверлей-окно с прогрессом транскрипции
- Выбор микрофона и ASR-бэкенда из меню в трее
- Автозапуск с Windows
Два варианта сборки
| Вариант | Размер | Описание |
|---|---|---|
| CUDA | ~2.4 ГБ | Полная поддержка GPU. Максимальная скорость на видеокартах NVIDIA. |
| CPU | ~800 МБ | Работает на любом ПК без видеокарты. |
AI-модели загружаются автоматически при первом запуске и кэшируются локально.
Сравнение с аналогами
| Параметр | VoiceInput 1.1 | CamoVoice | Handy | Speechnotes |
|---|---|---|---|---|
| Цена | Бесплатно | $24.99 | Бесплатно | Freemium |
| Офлайн | Да | Да | Да | Нет |
| WER (русский) | 3.3% | Нет данных | Нет данных | Нет данных |
| ASR-движки | 3 (GigaAM, Whisper, Vosk) | 1 | 1 | 1 (облако) |
| Открытый код | MIT | Нет | Да | Нет |
| GPU-ускорение | CUDA | Нет | Нет | Облако |
| Коррекция текста | T5 нейросеть | Нет | Нет | Нет |
| Автотесты | 93 теста | Нет данных | Нет данных | Нет данных |
| Смешанный RU+EN | Да | Нет | Нет | Нет |
| Стриминг | Реальное время | Нет | Нет | Да |
Системные требования
| Минимум | Рекомендуется | |
|---|---|---|
| ОС | Windows 10/11 | Windows 11 |
| ОЗУ | 8 ГБ | 16 ГБ |
| GPU | Не требуется (CPU-сборка) | NVIDIA 6+ ГБ VRAM |
| CUDA | — | CUDA 12.x |
| Диск | ~3 ГБ | ~5 ГБ (с моделями) |
Технологии
- GigaAM (Сбер) — ONNX-модель для русского ASR, обученная на 700 тыс. часов речи
- faster-whisper — оптимизированный движок Whisper на базе CTranslate2
- Vosk — компактный офлайн ASR-движок (Kaldi)
- Silero VAD — нейросетевой детектор голосовой активности
- T5 (bond005/ruT5-ASR-large) — модель коррекции для русского ASR
- ONNX Runtime — кроссплатформенный инференс для GigaAM
- PyTorch + CUDA — GPU-ускорение инференса
- PyInstaller — упаковка в standalone EXE