BorisovAI — Боты. Которые работают.

Голосовой агент встретил Claude Code: как мы строили персистентного помощника

Когда я открыл проект voice-agent, передо мной стояла классическая, но нетривиальная задача: создать полноценного AI-помощника, который бы работал не просто с текстом, но и с голосом, интегрировался в REST API на бэкенде и взаимодействовал с фронтенд-компонентами Next.js. Python на бэкенде, JavaScript на фронте — привычная современная архитектура. Но главный вызов был совсем не в технологиях.

Первым делом я осознал, что это не просто ещё один chatbot. Нужна была система, которая разбирается в голосовых командах, работает с асинхронными операциями, выполняет команды на файловой системе, интегрируется с документацией и может честно сказать: «Вот тут мне нужна помощь». Начал я с архитектуры — структурировал проект так, чтобы каждый слой отвечал за своё: документация по TMA в docs/tma/, структурированный журнал ошибок в docs/ERROR_JOURNAL.md, разделение бэкенд-сервисов по функциям.

Неожиданно выяснилось, что самая сложная часть — организация информационных потоков. Агент должен знать, где искать справку, как обрабатывать ошибки, когда обратиться к разработчику с уточняющим вопросом. Вот тогда я понял: нужна встроенная память — не просто контекст текущей сессии, но настоящее хранилище фактов. Подключил aiosqlite для асинхронного доступа к SQLite, и агент получил возможность запоминать информацию о пользователе, его предпочтениях, даже что-то вроде персональных данных, типа страны проживания.

Это открыло целый набор возможностей для персонализации. Агент стал не просто отвечать, а узнавать пользователя: «Ты из России? Значит, зафиксирую это и буду учитывать при рекомендациях».

Интересный факт: мы живём в эпоху ускорения AI-разработок. Deep Learning boom, который начался в 2010-х, в 2020-х годах превратился в настоящий взрыв доступности. Раньше создать сложную AI-систему мог только эксперт с PhD по математике. Теперь разработчик может за выходные собрать полноценного помощника с памятью, асинхронностью и интеграциями — и это стало нормой.

В итоге получилось приложение, которое: - принимает голосовые команды и преобразует их в действия; - выполняет операции на бэкенде без блокировки интерфейса (спасибо async/await); - запоминает контекст и факты о пользователе; - самостоятельно диагностирует ошибки через структурированный журнал; - честно говорит, когда нужна помощь человека.

Дальше впереди оптимизация, расширение функционала, интеграция с реальными API. Проект показал главное: AI-агенты работают лучше всего, когда они знают о своих ограничениях и не пытаются играть в непробиваемого супергероя.

Мигрировать с Linux — всё равно что менять колёса на ходу. На самолёте. 😄

Голосовой агент с памятью: как мы научили Claude работать асинхронно

Голосовой агент встретил Claude Code: как мы строили персистентного помощника

Метаданные