BorisovAI — Боты. Которые работают.

Голосовой ввод без облака и подписок

VoiceInput 1.1.0 — бесплатный инструмент распознавания речи для Windows, который работает полностью офлайн. Зажмите горячую клавишу, произнесите текст — и он мгновенно появится в любом приложении: мессенджере, редакторе, IDE или браузере.

Никакие данные не покидают ваш компьютер. Никаких учётных записей, подписок и ограничений по времени.

Что нового в 1.1.0

GigaAM — новый ASR-движок для русского языка. 3.3% WER (ошибок) против 32.6% у Whisper base — это снижение ошибок на 90%.
Три движка распознавания на выбор: GigaAM (качество), Whisper (мультиязычный), Vosk (скорость).
93 автоматических теста — полное покрытие всех компонентов: транскрипция, коррекция, фильтрация, пайплайн.
Переключение ASR-бэкенда из трея — меняйте движок и модель без перезапуска.
Выбор аудиоустройства — переключайте микрофон из меню трея.

Результаты тестирования

Качество распознавания проверено на аудиокнижном корпусе (русский литературный текст различной сложности): короткие фразы 6–7 секунд, длинные отрывки 25–30 секунд, редкие слова.

Качество распознавания (WER — процент ошибок в словах)

Движок	WER	Снижение ошибок	Скорость	Примечание
GigaAM v3-e2e-rnnt	3.3%	90.0%	0.66 с	Лучшее качество + скорость, пунктуация
GigaAM v3-rnnt	3.3%	90.0%	0.82 с	Лучшее качество
GigaAM v3-e2e-ctc	4.2%	87.2%	1.08 с	Хороший баланс
Whisper large-v3-turbo (GPU)	7.9%	75.7%	0.44 с	Мультиязычный
Vosk small	13.0%	60.0%	0.75 с	Минимальный размер (50 МБ)
Whisper base (CPU)	32.6%	—	0.45 с	Базовая линия v1.0

GigaAM на CPU превосходит все модели Whisper на GPU по качеству русского текста (3.3% против 7.9% WER).

Автоматическое тестирование

Категория	Тестов	Что проверяется
Транскрипция (Whisper)	15	RU/EN, стриминг, мультиязычный режим, подсказки, тишина
Полный пайплайн	9	Аудио → ASR → коррекция → текст, перевод RU→EN
Коррекция T5	11	Исправление ошибок, цепочка коррекций, выгрузка модели
Фильтрация галлюцинаций	14	Известные фразы, деллуппинг, аномалии длительности
Обработка аудио	11	Нормализация, обрезка тишины, ВЧ-фильтр, крайние случаи
Стриминговый пайплайн	7	VAD, жизненный цикл, обработка чанков
Интеграционные	8	Silero VAD, noisereduce, конфигурация v2
Итого	93	100% прошли

Ключевые преимущества

100% офлайн и приватно — голос обрабатывается локально, без отправки в облако. Полная конфиденциальность из коробки.
90% снижение ошибок — GigaAM (Сбер, 700 тыс. часов обучения) даёт 3.3% WER для русского языка.
Три ASR-движка — GigaAM для качества, Whisper для мультиязычности, Vosk для скорости.
GPU и CPU — CUDA-ускорение для максимальной скорости, CPU-сборка для любого ПК.
93 автотеста — каждый компонент проверен: от обработки аудио до полного пайплайна.
Бесплатно и с открытым кодом — MIT-лицензия. Используйте, модифицируйте, распространяйте без ограничений.

Как это работает

Запустите VoiceInput — иконка микрофона появится в системном трее
Зажмите горячую клавишу (по умолчанию LShift + RShift)
Говорите — на экране появляется текст в реальном времени
Отпустите клавишу — готовый текст вставляется в активное поле

Модели загружаются автоматически при первом запуске. После этого интернет не нужен.

Режимы распознавания

Режим	Движок	Языки	Качество (WER)	Скорость
Auto (по умолчанию)	GigaAM (CPU) / Whisper (GPU)	RU / Мульти	3.3% / 7.9%	0.66 с / 0.44 с
GigaAM	GigaAM ONNX	Только RU	3.3%	0.66 с
Whisper	faster-whisper	RU, EN, авто, перевод	7.9–32.6%	0.44–2.3 с
Vosk	Vosk offline	RU	13.0%	0.75 с

Возможности

Распознавание речи

GigaAM (Сбер) — ONNX-модель, обученная на 700 тыс. часов русской речи. 6 вариантов моделей.
faster-whisper (CTranslate2) — оптимизированный Whisper. Модели: base, small, medium, large-v3-turbo.
Vosk — компактный офлайн-движок (50 МБ), идеален для коротких фраз.
Стриминговый конвейер с Silero VAD — текст появляется по мере речи
Фильтрация галлюцинаций Whisper (известные артефакты удаляются автоматически)

Обработка текста

Коррекция T5 (bond005/ruT5-ASR-large) — исправляет ошибки ASR для русского языка
Цепочка коррекций (Chain-of-Correction) для сложных предложений
Пользовательский словарь для профессиональных терминов

Аудио и интерфейс

Предобработка аудио: преэмфазис, нормализация, ВЧ-фильтр 80 Гц, шумоподавление, обрезка тишины
Настраиваемые горячие клавиши (LShift+RShift, Win+Shift и др.)
Полупрозрачное оверлей-окно с прогрессом транскрипции
Выбор микрофона и ASR-бэкенда из меню в трее
Автозапуск с Windows

Два варианта сборки

Вариант	Размер	Описание
CUDA	~2.4 ГБ	Полная поддержка GPU. Максимальная скорость на видеокартах NVIDIA.
CPU	~800 МБ	Работает на любом ПК без видеокарты.

AI-модели загружаются автоматически при первом запуске и кэшируются локально.

Сравнение с аналогами

Параметр	VoiceInput 1.1	CamoVoice	Handy	Speechnotes
Цена	Бесплатно	$24.99	Бесплатно	Freemium
Офлайн	Да	Да	Да	Нет
WER (русский)	3.3%	Нет данных	Нет данных	Нет данных
ASR-движки	3 (GigaAM, Whisper, Vosk)	1	1	1 (облако)
Открытый код	MIT	Нет	Да	Нет
GPU-ускорение	CUDA	Нет	Нет	Облако
Коррекция текста	T5 нейросеть	Нет	Нет	Нет
Автотесты	93 теста	Нет данных	Нет данных	Нет данных
Смешанный RU+EN	Да	Нет	Нет	Нет
Стриминг	Реальное время	Нет	Нет	Да

Системные требования

	Минимум	Рекомендуется
ОС	Windows 10/11	Windows 11
ОЗУ	8 ГБ	16 ГБ
GPU	Не требуется (CPU-сборка)	NVIDIA 6+ ГБ VRAM
CUDA	—	CUDA 12.x
Диск	~3 ГБ	~5 ГБ (с моделями)

Технологии

GigaAM (Сбер) — ONNX-модель для русского ASR, обученная на 700 тыс. часов речи
faster-whisper — оптимизированный движок Whisper на базе CTranslate2
Vosk — компактный офлайн ASR-движок (Kaldi)
Silero VAD — нейросетевой детектор голосовой активности
T5 (bond005/ruT5-ASR-large) — модель коррекции для русского ASR
ONNX Runtime — кроссплатформенный инференс для GigaAM
PyTorch + CUDA — GPU-ускорение инференса
PyInstaller — упаковка в standalone EXE

VoiceInput — Голосовой ввод текстаv1.1.0