Транскрибация аудио — это автоматический перевод речи из звуковых или видеофайлов в редактируемый текст с помощью нейросетей, позволяющий сократить время обработки контента на 90%. В 2026 году стандартом для этой задачи является модель Whisper large-v3, которая обеспечивает точность распознавания русского языка на уровне 96–98%, понимая технический сленг, акценты и нечеткую дикцию.
Я до сих пор с ужасом вспоминаю 2020 год. Ты сидишь в наушниках, слушаешь интервью, жмешь паузу каждые три секунды и судорожно долбишь по клавишам. Расшифровка часового разговора занимала часа четыре. Это была каторга, за которую почему-то платили копейки. Если вы до сих пор делаете это вручную или нанимаете людей на бирже за 500 рублей/час, у меня для вас новости: вы сжигаете бюджет. Сегодня нейросети делают транскрибацию аудио в текст быстрее, чем вы успеете налить кофе, а стоимость минуты обработки стремится к статистической погрешности.
Whisper в 2026 году: Что изменилось?
Главная звезда на сцене преобразования аудио в текст — это по-прежнему разработка OpenAI, но она серьезно «поднабрала мышц». Забудьте про первые версии, которые путали «лук» и «look». Сейчас бал правят модели Whisper large-v3 и ее ускоренная версия large-v3-turbo.
Вот сухие факты для тех, кто любит цифры (Data SEO):
| Параметр | Whisper v2 (2023) | Whisper large-v3-turbo (2026) |
|---|---|---|
| Скорость обработки | ~10x от реального времени | ~200x от реального времени |
| WER (Ошибки в словах, RU) | 8-10% | 3-4% |
| Цена API (за минуту) | $0.006 | $0.006 (инфляция не коснулась) |
| Работа с шумом | Средняя | Высокая (фильтрует эхо) |
Турбо-версия идеальна для автоматизаций: она почти не теряет в качестве, но переваривает лекции и созвоны моментально. Это позволяет переводить аудио в текст в промышленных масштабах.
3 сценария автоматизации в Make.com
Ручной запуск скриптов через консоль (pip install openai whisper) — развлечение для гиков. Бизнесу нужна система. Мы будем использовать Make.com (бывший Integromat) — главный конструктор логики для тех, кто не пишет код.
Сценарий 1: «Второй мозг» (Telegram → Notion)
Вы идете по улице, и вам приходит гениальная идея. Писать неудобно. Вы записываете голосовое, и оно само появляется в вашей базе знаний уже структурированным.
- Trigger: Telegram Bot (Watch Updates). Бот слушает ваш личный чат.
- Action: Telegram Bot (Get File). Скачивает голосовое сообщение.
- Action: OpenAI Whisper (Create a Transcription).
- Модель:
whisper-1. - Промпт: «Транскрибируй с пунктуацией, разбей на смысловые абзацы, исправь эканья».
- Модель:
- Action: OpenAI ChatGPT (Completion). Роль редактора. Задача: выделить суть, список задач и теги.
- Action: Notion (Create Item). Создает красивую карточку в базе.
Сценарий 2: Авто-протокол встреч (Zoom → Email/Slack)
Самый востребованный кейс. Транскрибация видео созвонов спасает от потери договоренностей.
- Trigger: Google Drive. Следит за папкой «Zoom Recordings».
- Action: CloudConvert. Критически важный шаг. Конвертируем тяжелый MP4 в легкий MP3 (32-64 kbps). Whisper не нужен Hi-Fi звук, ему нужна речь. Это решает проблему лимитов.
- Action: Whisper API. Получаем «простыню» текста.
- Action: ChatGPT-4o. Анализирует текст. Промпт: «Сделай Follow-up письма. Кто был, о чем говорили, Next Steps со сроками».
- Action: Slack/Gmail. Отправляет итоги команде.
Сценарий 3: Content Factory (Голос → Блог)
Как делать транскрибацию аудио для контента, чтобы не писать статьи руками.
Здесь добавляется модуль Router. Он делит поток на два русла:
- Ветка А: Короткий пост для Telegram/LinkedIn. ChatGPT жмет воду и добавляет виральности.
- Ветка Б: Лонгрид для сайта (WordPress). ChatGPT структурирует текст по заголовкам H2/H3, делая полноценную статью.
https://kv-ai.ru/obuchenie-po-make
Проблема 25MB: Как обойти лимиты API
Даже в 2026 году OpenAI Whisper API имеет жесткое ограничение: файл не должен превышать 25 мегабайт. Часовое видео в Zoom весит сотни мегабайт. Если просто отправить его в модель, получите ошибку 413 Payload Too Large.
Рабочие решения в Make:
- Агрессивное сжатие. Используйте модули CloudConvert или Convertio перед отправкой. Формат
.oggили.mp3с битрейтом 32k сжимает час речи до 15–20 МБ. Качество распознавания не падает. - Нарезка (Chunking). Если вы пишете подкаст на 3 часа, сжатие не поможет. Придется резать. В Make это делается через тот же CloudConvert (функция Trim) или отправкой файла в Google Cloud Speech (он дороже, но ест большие файлы).
- Локальная альтернатива. Если у вас NDA и данные нельзя слать в OpenAI, используйте связку
whisper-cppна своем сервере и обращайтесь к нему через HTTP Request в Make.
Автоматизация как навык будущего
Транскрибация текста онлайн — это лишь верхушка айсберга. Умение связывать нейросети, мессенджеры и CRM в единую экосистему отличает современного специалиста от того, кого скоро заменят алгоритмы. Это не про «код», это про логику и архитектуру процессов.
Если вы хотите не просто использовать готовые инструменты, а создавать свои собственные системы, которые работают, пока вы спите, имеет смысл углубиться в архитектуру Make.com.
Полезные ссылки для старта:
- Хотите научиться автоматизации рабочих процессов с помощью сервиса make.com и нейросетей? Подпишитесь на наш Telegram-канал
- Мы в MAX
- Обучение по Автоматизации, CursorAI, маркетингу и make.com
- Блюпринты по make.com — готовые схемы, чтобы не собирать с нуля.
- MCP сервис автоматизации «ВСЁ ПОДКЛЮЧЕНО» — wordstat, wordpress, Вконтакте, телеграм, нейросети генерации картинок, фотосток и другое.
Частые вопросы
Как сделать транскрибацию аудио бесплатно?
Для разовых задач можно использовать Google Docs (голосовой ввод) или бесплатные боты в Telegram, но они имеют лимиты по времени. Для постоянной работы лучше установить Whisper от OpenAI скачать с GitHub и запустить локально через pip install openai-whisper — это бесплатно, но требует мощной видеокарты.
Безопасно ли отправлять конфиденциальные записи в Whisper?
OpenAI заявляет, что данные, переданные через API, не используются для обучения моделей (в отличие от веб-версии ChatGPT). Однако для строгих NDA лучше использовать локальные версии моделей (whisper-cpp) или Enterprise-решения.
Какая модель лучше для русского языка?
На данный момент модель Whisper large-v3 показывает лучшие результаты для русского языка, корректно расставляя знаки препинания и понимая контекст. Версия Turbo работает быстрее с минимальной потерей качества.
Можно ли переводить аудио в текст сразу с переводом на английский?
Да, endpoint /translations в API Whisper позволяет сразу получать английский текст из русского аудио. Это удобнее, чем сначала делать расшифровку аудио в текст, а потом переводить отдельным запросом.
Почему Make.com выдает ошибку при загрузке аудио?
В 99% случаев проблема в размере файла. API OpenAI принимает файлы до 25 МБ. Используйте модуль конвертации для сжатия аудио перед отправкой на транскрибацию.
