Что такое RAG простыми словами?
RAG — это схема «найти в ваших документах → ответить нейросетью с цитатой». Модель не хранит регламент в памяти, она получает актуальные фрагменты в момент вопроса.
Production-гайд: PDF и регламенты → чат-бот с гибридным поиском, Qdrant/pgvector и автоматизацией через MCP, n8n и Make
Вы ищете нейросеть для документов — чтобы сотрудники не копались в PDF, а клиенты получали ответы из ваших регламентов, а не из головы чат-бота. Загрузить файлы в ChatGPT кажется быстрым решением, но для компании это тупик: нет прав доступа, нет свежести, нет цитат, нет контроля. RAG-система (Retrieval Augmented Generation) — рабочий путь: поиск по вашей корпоративной базе знаний плюс ответ языковой модели с указанием источника.
Этот production-гайд собран для предпринимателей и маркетологов, которые хотят пройти маршрут «регламенты → векторный поиск → чат-бот по документам» без лишней теории. Ниже — архитектура, чанкинг, гибридный поиск, реранкинг, выбор между Qdrant и pgvector, автоматизация через MCP, n8n и Make.
RAG (retrieval augmented generation, «генерация с подкреплением поиском») — способ подключить к нейросети ваши документы: сначала система находит релевантные фрагменты, потом модель формулирует ответ на их основе.
Маркер: простыми словами. RAG — это «сначала найти в своих файлах, потом ответить». Нейросеть не обязана помнить весь регламент: она получает только те куски, которые реально относятся к вопросу, и строит ответ с опорой на них.
В 2026 году разговоры «RAG умер, хватит длинного контекста» не выдержали проверки практикой. Окна контекста у LLM выросли, но бизнесу по-прежнему нужны актуальность (документ обновился вчера), права доступа (юрист видит договоры, стажёр — нет), аудит (откуда взялась цифра) и предсказуемая стоимость запросов. По обзору инженеров OTUS на Habr, современный RAG — это не «векторная база + top-k», а цепочка: переформулировка запроса → поиск → реранкинг → упаковка доказательств → ответ с цитатами → оценка качества поиска.
Коротко: что такое RAG в одном абзаце
| Подход | Плюсы | Минусы для бизнеса |
|---|---|---|
| Загрузить PDF в промпт / ChatGPT | Быстро, без разработки | Нет ACL, устаревает, дорого на больших файлах, «Lost in the Middle» — модель хуже использует середину длинного текста |
| Fine-tuning (дообучение модели) | Стабильный стиль | Дорого, долго, знания «зашиты» в веса — обновить регламент = переобучение |
| RAG-система | Свежесть, цитаты, фильтры, масштаб | Нужен пайплайн данных и мониторинг |
Fine-tuning имеет смысл для тона бренда; создание базы знаний с живыми регламентами почти всегда делают через RAG.
Корпоративная база знаний — не папка «всё подряд». В RAG попадает то, на что сотрудники регулярно ссылаются и что можно цитировать. Остальное — в CRM, тикет-систему или личные заметки.
Специалисты Alpina Digital, которые строят корпоративные RAG, описывают типичную картину: из тысяч «актуальных» файлов после аудита остаётся треть — дубликаты, устаревшие версии, битый OCR, пустые метаданные. Их разбор на Habr прямо говорит: 70–80% проблем enterprise-RAG — в данных, не в модели.
Хорошо ложатся в RAG:
Плохо или опасно:
Назначьте владельца базы знаний по каждому домену (HR, юристы, продукт). RAG не исправляет противоречия: если в двух PDF разные сроки гарантии, бот честно процитирует оба. Перед индексацией — правило «одна тема — один канонический документ».
Чек-лист: 5 типов документов для первого пилота RAG
Архитектура RAG-системы в production — конвейер из семи этапов. Пропуск любого звена даёт «умный, но неправильный» бот.
| Этап | Что происходит | Типичная ошибка |
|---|---|---|
| Ingestion | Загрузка PDF, парсинг, OCR при необходимости | Индексируют сканы без OCR — поиск «слепой» |
| Чанкинг | Разбиение на фрагменты с overlap и метаданными | Один PDF = один чанк — теряется точность |
| Эмбеддинги | Векторное представление каждого чанка | Модель без русского домена — путает синонимы |
| Индекс | Запись в Qdrant, pgvector или аналог | Нет фильтров по отделу — утечка контекста |
| Retrieval | Поиск кандидатов (вектор + BM25) | Только dense search — промах по номерам |
| Rerank | Пересортировка top-50 → top-5–8 | LLM оценивает каждый чанк — дорого и медленно |
| Generation | Ответ LLM с цитатами и «не знаю» | Нет запрета на ответ без контекста — галлюцинации |
Схема для команды:
PDF/регламент → парсер → чанки + метаданные → embedding → vector DB
↓
Вопрос пользователя → hybrid search → reranker → prompt → LLM → ответ + источник
Фильтры — до отправки чанков в LLM:
department, role, doc_class, valid_until.role IN (...).Так вы не платите токены за фрагменты, которые пользователю всё равно нельзя показывать.
Ниже — не «ещё один hero», а инженерная карта: ingest, чанки, эмбеддинги, Qdrant или pgvector, гибрид BM25+dense, реранкер и чат-бот с обязательной ссылкой на источник.
Дальше разберём, как не «рвать» смысл регламентов при чанкинге.
Чанкинг — разбиение документа на куски, по которым идёт поиск. Слишком мелко — теряется контекст абзаца; слишком крупно — в выдачу попадает «вода», а нужный пункт теряется.
Маркер: простыми словами. Чанк — это порция текста размером с небольшой раздел регламента. Система ищет не весь PDF целиком, а подходящие порции.
Базовый коридор для русских регламентов: 500–1000 токенов, перекрытие (overlap) 10–20%. Recursive-разбиение около 512 токенов на практике часто обгоняет «умный» семантический чанкинг по итоговой точности ответов.
section_title.Если PDF — скан без текстового слоя, сначала OCR (Tesseract, облачные API, внутренние сервисы). Иначе эмбеддинги строятся по мусору. Признаки проблемы: бот «не находит» очевидные формулировки из бумажного приказа.
Таблица: размер чанка под тип документа
| Тип документа | Размер чанка | Overlap | Риск при ошибке |
|---|---|---|---|
| Регламент / политика | 500–800 токенов, parent-child | 15–20% | Рвётся логика «если — то» |
| FAQ | 1 Q + 1 A | 0% | Дубли вопросов |
| Договор | 300–500 (child), 1500+ (parent) | 10% | Потеря номера пункта |
| Техдок с кодами | 400–600 | 10–15% | Путаются артикулы |
| Презентация | Слайд = чанк | — | Теряются связи между слайдами |
Эмбеддинги переводят текст в числовой вектор. Похожие по смыслу фрагменты оказываются «близко» в векторной базе данных — так работает семантический векторный поиск.
Маркер: простыми словами. Эмбеддинг — координаты смысла фразы в многомерном пространстве. «Отпуск 28 дней» и «ежегодный оплачиваемый отдых» окажутся рядом, даже если слова разные.
Для русского домена часто лучше multilingual-модели (multilingual-e5-large, jina-embeddings-v3), чем универсальные англоязычные embedding-модели на узкой лексике (внутренние замеры на корпоративных текстах это подтверждают).
Критерии:
Минимум для MVP — 20–50 пар «вопрос → эталонный фрагмент/ответ». Считайте:
Маркер: простыми словами. Faithfulness — «ответ не врёт относительно найденных абзацев». Context Recall — «мы вообще нашли нужный абзац».
Ранний симптом деградации: ответы стали длиннее и «водянистее» — модель компенсирует слабый поиск общими фразами.
Чистый векторный поиск плохо ловит точные совпадения: номера приказов, SKU, пункт «4.2.1», фамилии, ИНН. Здесь помогает гибридный поиск: параллельно идут векторы (смысл) и BM25 (точные слова).
Маркер: простыми словами. BM25 — классический поиск по ключевым словам, как в старом добром поиске по сайту. Он находит «приказ №117», даже если векторный поиск увлёкся синонимами.
Результаты двух веток сливают через RRF (Reciprocal Rank Fusion) — объединение списков без ручного подбора весов на старте. Берут top-50 кандидатов, дальше — реранкинг.
Production-дефолт 2026:
Вес гибрида 0.5–0.7 на dense-ветку часто лучше крайностей «только вектор» или «только слова». Контекстные подписи к чанкам (50–100 токенов «из какого документа этот фрагмент») заметно снижают промахи поиска.
Маркер: простыми словами. Reranker (реранкер) — вторая модель, которая читает пару «вопрос + чанк» и ставит оценку релевантности. Это фильтр перед дорогой LLM.
Популярные варианты: bge-reranker-v2-m3, Cohere Rerank, Jina Reranker. Использовать LLM для оценки каждого чанка — антипаттерн: +5–10 секунд задержки и нестабильные баллы. В production-кейсе по охране труда замена LLM-реранкера на bge дала предсказуемость и скорость без потери качества.
Три признака, что вам нужен гибридный поиск, а не только векторы
Векторная база данных — сердце RAG. Два практичных пути для малого и среднего бизнеса: отдельный Qdrant или расширение PostgreSQL через pgvector.
Маркер: простыми словами. pgvector — «векторный поиск внутри вашей обычной SQL-базы». Qdrant — отдельный специализированный сервис только под векторы и фильтры.
Плюсы: встроенный гибридный поиск и RRF, сильная фильтрация по payload, низкая задержка под нагрузкой, удобное масштабирование. Sweet spot — от ~5 млн векторов и сложные метаданные. Документация и обзор возможностей — на qdrant.tech.
Плюсы: один стек с CRM/аналитикой, ACID, SQL-фильтры и JOIN. Оптимален при до 1–5 млн векторов и умеренной частоте запросов, если Postgres уже есть. Путь «сначала pgvector → потом Qdrant» снижает риск на старте.
| Критерий | pgvector | Qdrant |
|---|---|---|
| Старт для малой команды | ★★★★★ (если есть Postgres) | ★★★★ |
| Гибридный поиск из коробки | Нужна доработка / внешний BM25 | ★★★★★ |
| Фильтры по метаданным | SQL — гибко | Payload-фильтры — быстро |
| Масштаб 5M+ векторов | Требует тюнинга | ★★★★★ |
| Операционная сложность | Ниже (один сервис) | Отдельный кластер |
| Типичный MVP | Да, до ~1M чанков | Да, особенно если нужен hybrid сразу |
Большинство корпоративных RAG в реальности — меньше 5 млн документов/чанков. Не усложняйте выбор: начните с того, что уже крутится в инфраструктуре.
Финальный продукт для бизнеса — не «красивый поиск», а чат-бот по документам, который отвечает в Telegram, на портале или в виджете на сайте. Системы поиска по документам без диалога часто проигрывают по вовлечению: люди формулируют вопрос разговорно.
Жёсткие правила промпта:
Шаблон ответа бота с цитатой
Пользователь: Сколько дней отпуска положено в первый год?
Бот: В первый год работы предусмотрено 28 календарных дней ежегодного
оплачиваемого отпуска после испытательного срока.
📎 Источник: «Положение об отпусках», раздел 3.2, редакция от 15.01.2026, стр. 7.
Если ваш случай нестандартный (совместительство, неполный день) — уточните
условия, я проверю смежные разделы.
Свяжите бота с база знаний чат-бота как с единым индексом: один ingestion-пайплайн — много каналов выдачи.
Ручная перезаливка PDF раз в месяц убивает доверие к RAG. Нужен контент-завод для корпоративной памяти: новый файл → индексация → уведомление → проверка качества.
MCP (Model Context Protocol) подключает внешние инструменты к Cursor и Claude Code. Официальный mcp-server-qdrant даёт операции поиска и записи в коллекцию — удобно для «памяти проекта» и разработки RAG без постоянного переключения в админку.
Маркер: простыми словами. MCP — стандарт «подключи базу знаний к ИИ-редактору как плагин». Cursor видит ваш индекс как инструмент, а не как файл в чате.
Make (как и n8n) собирает цепочку: триггер → embeddings → vector store → LLM. Для маркетолога без бэкенда это вход в n8n rag / no-code RAG. Если хотите пройти такие сценарии шаг за шагом с разборами Make, n8n и Cursor — смотрите обучение по автоматизации и вайбкодингу на kv-ai.ru. Гибридный поиск и rerank в чистом no-code чаще дополняют HTTP-модулями к вашему API — закладывайте тонкий backend-слой на этапе роста.
Семь шагов «минимальный RAG за выходные»
RAG на выходные — а дальше? В канале Maya Pro в Telegram — разборы пайплайнов на Make, n8n, MCP и вайбкодинг: от индексации PDF до ботов с цитатами, без лишнего шума.
Как сделать RAG без месяцев R&D: пилот → метрики → масштаб. Создание RAG-системы — итерации, не «большой взрыв».
| Метрика | Зачем | Ориентир MVP |
|---|---|---|
| Hit-rate@5 | Нашли ли нужный чанк | > 80% на пилоте |
| Latency p95 | Скорость ответа | < 5–8 с с rerank |
| Faithfulness | Нет выдумок | > 0.85 (RAGAS) |
| Оценка пользователей | 👍/👎 после ответа | > 70% положительных |
152-ФЗ: не индексируйте паспорта, зарплаты, медданные без обезличивания. Для чувствительных контуров — on-prem или российские API (GigaChat, YandexGPT) с корпоративным договором. Облачная LLM с вашими PDF допустима только после юридической оценки и, как минимум, договора обработки данных.
Roadmap: недели 1–4
| Неделя | Задача | Результат |
|---|---|---|
| 1 | Аудит документов, 20 тестовых вопросов | Список источников, baseline «без RAG» |
| 2 | Ingestion, чанкинг, pgvector/Qdrant | Индекс, первый внутренний поиск |
| 3 | Hybrid + rerank, промпт с цитатами | Ответы без галлюцинаций на пилоте |
| 4 | Telegram/веб-бот, eval, алерты | Пилот в прод на 1 отдел, отчёт метрик |
Ориентиры по бюджету в РФ: MVP 300–800 тыс. ₽ под ключ с интеграциями; эксплуатация при ~1000 запросов/день — порядка 5–20 тыс. ₽/мес на API против 70–110 тыс. ₽/мес на линии L1-операторов (рыночные оценки из отраслевых разборов).
| Ошибка | Симптом | Исправление |
|---|---|---|
| Огромные чанки | Общие ответы, нет точных цитат | Уменьшить до 500–800, parent-child |
| Нет переиндексации | Бот цитирует старый регламент | Автотриггер на изменение файла |
| Только векторы | Промах по номерам пунктов | Включить BM25 + rerank |
| Нативный RAG на «Привет» | Лишние поиски, мусор в контексте | Tool-based: искать только по сути |
| GraphRAG в день один | Месяцы разработки, ноль пользы | Отложить до зрелого пилота |
Не кладите в prompt 30 чанков «на всякий случай». После rerank — 5–8 фрагментов. Следите за суммарной длиной: длинный контекст бьёт по цене и не всегда по качеству (эффект «потерянной середины»).
Безопасны ли RAG-системы? — Да, если ACL на retrieval, логирование, защита от prompt injection и выбор контура данных согласован с юристами. RAG не безопасен «по умолчанию», если в индекс попали все Google Drive без фильтров.
RAG — это схема «найти в ваших документах → ответить нейросетью с цитатой». Модель не хранит регламент в памяти, она получает актуальные фрагменты в момент вопроса.
Обычный чат-бот опирается на зашитые сценарии и общие знания модели. RAG-система подтягивает ваши PDF и регламенты, может сказать «не знаю» и показать источник.
PDF регламентов, FAQ, инструкции, экспорт wiki, шаблоны с фиксированными формулировками. Хуже — хаотичные чаты и черновики.
Чанкинг — разбиение текста на фрагменты для поиска. Методы: фиксированный размер, по заголовкам, parent-child для длинных документов.
Гибридный поиск RAG совмещает смысл (векторы) и точные слова (BM25). Нужен, если в документах важны номера, коды и формулировки «буква в букву».
Реранкинг — пересортировка найденных фрагментов второй моделью (reranker) перед ответом LLM. Отсекает похожий, но неверный контекст.
Есть Postgres и до ~1–5 млн векторов — начните с pgvector. Нужен hybrid, фильтры и запас по масштабу — Qdrant. Оба варианта рабочие для rag pdf и корпоративных регламентов.
Да, для простого сценария: триггер файла → чанкинг → embeddings → vector store → AI Agent. Сложный hybrid и ACL чаще требуют тонкого backend, но n8n rag — нормальный старт.
Установите MCP-сервер к Qdrant, пропишите коллекцию и ключи в настройках Cursor — модель получит инструмент поиска по индексу (qdrant mcp).
Зависит от договора, обезличивания и класса данных. Для ПДн и коммерческой тайны — закрытый контур или российские корпоративные API. Минимум: шифрование, логи, запрет на обучение модели вашими данными в договоре.
MVP с базовым ботом — ориентир 300–800 тыс. ₽ в РФ; ежемесячно API при тысяче запросов в день — 5–20 тыс. ₽ (без учёта зарплаты разработчика на поддержку).
Соберите 20–50 вопросов с эталонами, меряйте hit-rate, Faithfulness и Context Recall; раз в месяц повторяйте прогон после обновления документов.
Что проверяли по источникам: инженерные разборы RAG 2026 на Habr (OTUS, Alpina Digital); документация Qdrant; метрики RAGAS; production-кейсы с hybrid search и bge-reranker; рыночные оценки стоимости пилотов в РФ.
Итог. RAG для бизнеса — это не модная аббревиатура, а создание базы знаний, которую можно измерять: чистые документы, грамотный чанкинг, векторный поиск плюс гибридный поиск и реранкинг, выбор Qdrant или pgvector под ваш стек, чат-бот по документам с цитатами и автоматизация через MCP, n8n или Make. Начните с пилота на 50–200 файлах и 30 вопросах — и вы получите не «ещё одну нейросеть», а рабочую корпоративную память с понятным ROI.