Маркетолог скачала с Zoom интервью на 48 минут, закинула M4A в онлайн-транскрибатор — спикеры слиплись, «Notion» стал «ноушеном», саммари писала вручную. После часовой встречи остаётся тяжёлый MP3, облачный API режет файл на 25 МБ, Kafka уезжает в «кофту». Ниже — рабочий стол, не рейтинг сервисов: три ветки (локально / API / n8n) и чеклист, чтобы на тесте 10-15 минут русской речи получить текст, таймкоды и саммари в Notion без копипаста.
Транскрибация аудио в текст с ИИ — это не один сервис, а цепочка: подготовка файла → выбор движка под сценарий → расшифровка → саммари → хранилище. Для приватных данных — faster-whisper на своём ПК; для совещаний со спикерами — OpenAI gpt-4o-transcribe-diarize с chunking_strategy=auto уже после 30 секунд аудио; для автоматизации — n8n: Drive → Whisper → GPT → Notion. Запрос «транскрибация аудио в текст» в Вордстате — 9686 показов в месяц, хвост «бесплатно/онлайн» — около половины спроса.
Whisper силён на бытовом русском, но ломается на code-switching: Kafka, Kubernetes и английские аббревиатуры в одной фразе. На Common Voice large-v3 WER около 9,8%, в живом IT-интервью «Kafka» легко становится «кофтой» — такой разбор есть на Habr. Соберите pipeline один раз — каждая запись пойдёт по тому же маршруту, без хаотичного набора вкладок.
Типичная ошибка — гнать часовой M4A целиком в облако: лимит OpenAI — 25 МБ по весу, не по минутам. Для диаризации gpt-4o-transcribe-diarize нужен chunking_strategy=auto уже после 30 секунд аудио. Режем по паузам, не по байтам.
Выберите сценарий: встреча, подкаст или NDA

Сначала ответьте на три вопроса: сколько спикеров, можно ли отправлять аудио в облако, нужен ли автоматический протокол в Notion или Google Docs. От ответа зависит ветка — не наоборот.
| Сценарий | Локально (faster-whisper) | OpenAI API | Готовый SaaS |
|---|---|---|---|
| Приватные данные / NDA | Да, on-prem | Нет, аудио уходит в облако | Зависит от политики сервиса |
| 2-5 спикеров на встрече | WhisperX + pyannote, без жёстких min/max speakers | gpt-4o-transcribe-diarize, diarized_json | Часто есть, но без контроля |
| Монолог подкаста | large-v3, language=ru, vad_filter | gpt-4o-mini-transcribe — дешевле черновика | Быстрый старт, лимиты по тарифу |
| Автосаммари в CRM/Notion | Нужен свой скрипт или n8n | Удобно стыкуется с LLM-нодой | Редко end-to-end |
Итоговый вердикт: конфиденциальное — faster-whisper или self-hosted сервер с OpenAI-совместимым endpoint. Регулярные созвоны с протоколом — API + n8n. Разовая задача без автоматизации — SaaS, но проверьте лимит размера файла.
Подготовьте аудио: формат, шум и нарезка длинных записей

API (программный интерфейс) — «розетка», куда подаёте файл и забираете текст. Лимит OpenAI — 25 МБ на запрос. На практике: чанки 10-15 минут, overlap 5-10 секунд на стыках, нарезка по тишине через pydub или ffmpeg. Не режьте тупо по размеру — на границе слова обрежутся.
- Конвертируйте в моно 16 kHz WAV, если исходник шумный или стерео с эхо — Whisper так слышит речь чище.
- Прогоните лёгкий noise gate через ffmpeg, если фон офиса или улицы.
- Найдите паузы и разрежьте на сегменты до 10-15 минут; на стыках оставьте 5-10 секунд перекрытия, чтобы не потерять слова на границе.
- Проверьте вес каждого чанка — для OpenAI цель ниже 25 МБ; для MP3 64 kbps час укладывается примерно в 28 МБ, поэтому резать всё равно придётся.
- Сохраните порядок файлов в именах (part01, part02), чтобы потом склеить таймкоды.
На практике та же маркетолог после нарезки прогнала 48-минутное интервью через faster-whisper с language=ru и перестала упираться в лимит онлайн-сервиса.
Разверните движок: локально, через API или self-hosted

Ветка A: faster-whisper бесплатно на своём ПК
faster-whisper — ускоренная open-source версия Whisper: до 4× быстрее, есть INT8 для слабых машин. pip install faster-whisper, модель large-v3, transcribe с language=»ru» и vad_filter=True (VAD отсекает тишину). Экспорт TXT или SRT. Аудио не покидает диск — под NDA.
Ветка B: OpenAI Speech-to-Text API
Модели на июнь 2026: whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe, gpt-4o-transcribe-diarize. Черновик — mini; совещание со спикерами — diarize с diarized_json и chunking_strategy=auto. Чанки грузите отдельно, склеивайте текст и сдвигайте таймкоды.
Ветка C: self-hosted endpoint
Если нужен API-формат без облака OpenAI — поднимите faster-whisper-server в Docker (контейнер — упакованная программа без ручной установки библиотек). Endpoint совместим с /v1/audio/transcriptions: n8n и скрипты подключаются без переписывания логики.
Схема полного цикла:
Запись (Zoom/диктофон) → подготовка аудио → транскрибация (local / API / self-host) → LLM-саммари → Notion / Google Docs / CRM
Соберите workflow в n8n: от файла до протокола встречи
n8n — конструктор автоматизаций: шаги соединяются как блок-схема. Ориентир — шаблон #6139 на n8n.io: Google Drive Trigger → скачивание аудио → OpenAI Transcribe (language=ru) → GPT-4 с промптом «протокол + action items» → Notion. Подробнее про ноды — в гайде автоматизация n8n с ИИ-агентами. Триггер меняют на Zoom webhook или общую папку команды — логика та же.
- Триггер: новый файл в папке Drive / Dropbox / почтовое вложение.
- Подготовка: при необходимости нода Execute Command с ffmpeg для нарезки (на self-host n8n).
- Транскрибация: OpenAI Audio node или HTTP Request на локальный Whisper endpoint.
- Саммари: LLM node с шаблоном на 5-7 буллетов: решения, ответственные, дедлайны.
- Экспорт: Notion, Google Docs или поле в CRM — один раз настроили, дальше без ручного копипаста.
Саммари — облачный GPT или локальная модель (Ollama для бизнеса). На Make.com ту же цепочку собирают через HTTP и AI-модули — Make AI Agents и MCP.
Настройте качество для русского: термины, спикеры, post-edit
Явный language=ru обязателен — без него модель угадывает язык и портит смешанную речь. Где API поддерживает prompt со списком терминов (Kafka, Kubernetes, Notion, amoCRM) — передайте его в запросе. Для критичных интервью держите чеклист post-edit: имена, бренды, аббревиатуры. Часто ломается именно на собственных названиях продуктов.
Диаризация (кто что сказал) локально: WhisperX + pyannote. Типичная ошибка — жёсткие min_speakers и max_speakers: на GitHub issue #1208 99% речи ушло одному спикеру. Не форсируйте число голосов на чистой записи.
На тесте 10-15 минут, 2 спикера: таймкоды на месте, спикеры в 80%+ реплик, не больше 2 критичных ошибок в списке IT-терминов. Пройдите этот мини-тест до продакшена.
Пройдите чеклист запуска в продакшен
Успех pipeline измеряется повторяемостью, а не разовым «вау-эффектом». Зафиксируйте ветку под ваш сценарий и не меняйте её после каждой неудачной расшифровки.
- Тест 10-15 мин, ru, 2+ спикера — пройден с ≤2 критичными ошибками терминов.
- Саммари из 5-7 буллетов уходит в выбранное хранилище без ручного копирования.
- Лимиты RPM API и бюджет на минуту аудио зафиксированы (mini дешевле full transcribe).
- Политика хранения: исходники удаляются после транскрибации, если позволяет регламент.
- Раз в неделю — выборочная проверка одной случайной записи по тому же чеклисту.
Когда цикл «запись → текст → саммари → Doc» идёт без вас, критерий готовности выполнен. Похожие цепочки разбирают в клубе по Make.com.
Материал проверен: эксперт Елена Ковалева (Главный эксперт по SEO/GEO).
Достоверность данных: лимиты OpenAI API, модели Speech-to-Text и показатели Вордстат по запросу «транскрибация аудио в текст» (9686 показов/мес, регион 225) верифицированы на июнь 2026 года; технические паттерны сверены с документацией OpenAI, faster-whisper и n8n template #6139.
Частые вопросы
Как сделать транскрибацию аудио в текст бесплатно?
faster-whisper локально: pip install faster-whisper, large-v3, language=ru, vad_filter=True. Файл не уходит в облако. Длинные записи нарежьте по паузам — стабильнее, чем один гигантский MP3.
Whisper или облачный сервис — что лучше для русского языка?
Бытовой русский — Whisper large-v3; IT-лексика — prompt с терминами и post-edit. Диаризация без pyannote — gpt-4o-transcribe в API. При NDA — только local или self-hosted.
Как автоматически транскрибировать запись встречи?
n8n: Drive → нарезка → OpenAI Transcribe (language=ru) → LLM-саммари → Notion. Старт — шаблон #6139 на n8n.io.
Почему API отклоняет мой файл, хотя он не часовой?
Лимит — 25 МБ на запрос. Плотный M4A упирается за 20-30 минут. MP3 64 kbps mono или нарезка по тишине.
Нужны таймкоды и спикеры — какую модель выбрать?
API: gpt-4o-transcribe-diarize с chunking_strategy=auto. Локально: WhisperX + pyannote без жёстких min/max speakers.
Можно ли не отправлять аудио в OpenAI из-за 152-ФЗ?
Да: faster-whisper on-prem или Docker endpoint. Саммари через Ollama — цикл без облака.