Корпоративная база знаний

RAG для бизнеса: гайд по базе знаний, векторному поиску и чат-боту

Q: Что такое RAG простыми словами?

RAG — схема «найти в ваших документах → ответить нейросетью с цитатой».

Q: Чем RAG отличается от обычного чат-бота?

RAG подтягивает ваши PDF и регламенты, может сказать «не знаю» и показать источник.

Q: Какие документы лучше всего подходят для RAG?

PDF регламентов, FAQ, инструкции, экспорт wiki.

Q: Что такое чанкинг в RAG?

Разбиение текста на фрагменты для поиска.

Q: Зачем нужен гибридный поиск в RAG?

Совмещает смысл (векторы) и точные слова (BM25).

Q: Что такое реранкинг и reranker?

Пересортировка фрагментов второй моделью перед ответом LLM.

Q: Qdrant или pgvector — что выбрать?

Postgres до ~1–5 млн векторов — pgvector; hybrid и масштаб — Qdrant.

Q: Можно ли сделать RAG на n8n без программиста?

Да для простого сценария; сложный hybrid часто требует backend.

Q: Как подключить базу знаний к Cursor через MCP?

Установите MCP-сервер к Qdrant и пропишите коллекцию в Cursor.

Production-гайд: PDF и регламенты → чат-бот с гибридным поиском, Qdrant/pgvector и автоматизацией через MCP, n8n и Make

Читать production-гайд ↓

Вы ищете нейросеть для документов — чтобы сотрудники не копались в PDF, а клиенты получали ответы из ваших регламентов, а не из головы чат-бота. Загрузить файлы в ChatGPT кажется быстрым решением, но для компании это тупик: нет прав доступа, нет свежести, нет цитат, нет контроля. RAG-система (Retrieval Augmented Generation) — рабочий путь: поиск по вашей корпоративной базе знаний плюс ответ языковой модели с указанием источника.

Этот production-гайд собран для предпринимателей и маркетологов, которые хотят пройти маршрут «регламенты → векторный поиск → чат-бот по документам» без лишней теории. Ниже — архитектура, чанкинг, гибридный поиск, реранкинг, выбор между Qdrant и pgvector, автоматизация через MCP, n8n и Make.

rag-pipeline — zsh

$ ingest → chunk 512 → embed
# hybrid BM25+dense → rerank → LLM
→ ответ + 📎 цитата из PDF

Что такое RAG и зачем он бизнесу вместо «просто ChatGPT»

RAG (retrieval augmented generation, «генерация с подкреплением поиском») — способ подключить к нейросети ваши документы: сначала система находит релевантные фрагменты, потом модель формулирует ответ на их основе.

Маркер: простыми словами. RAG — это «сначала найти в своих файлах, потом ответить». Нейросеть не обязана помнить весь регламент: она получает только те куски, которые реально относятся к вопросу, и строит ответ с опорой на них.

В 2026 году разговоры «RAG умер, хватит длинного контекста» не выдержали проверки практикой. Окна контекста у LLM выросли, но бизнесу по-прежнему нужны актуальность (документ обновился вчера), права доступа (юрист видит договоры, стажёр — нет), аудит (откуда взялась цифра) и предсказуемая стоимость запросов. По обзору инженеров OTUS на Habr, современный RAG — это не «векторная база + top-k», а цепочка: переформулировка запроса → поиск → реранкинг → упаковка доказательств → ответ с цитатами → оценка качества поиска.

Коротко: что такое RAG в одном абзаце

Поиск по индексу ваших документов (векторный, лексический или оба).
Отбор 5–8 лучших фрагментов с метаданными (отдел, дата, тип файла).
Генерация ответа LLM строго в рамках найденного контекста.
Цитирование — ссылка на PDF, раздел, страницу.
Контроль — логи запросов, метрики, обновление индекса при смене регламента.

Чем RAG отличается от файлов в промпте и fine-tuning

Подход	Плюсы	Минусы для бизнеса
Загрузить PDF в промпт / ChatGPT	Быстро, без разработки	Нет ACL, устаревает, дорого на больших файлах, «Lost in the Middle» — модель хуже использует середину длинного текста
Fine-tuning (дообучение модели)	Стабильный стиль	Дорого, долго, знания «зашиты» в веса — обновить регламент = переобучение
RAG-система	Свежесть, цитаты, фильтры, масштаб	Нужен пайплайн данных и мониторинг

Fine-tuning имеет смысл для тона бренда; создание базы знаний с живыми регламентами почти всегда делают через RAG.

Типовые задачи: HR, юристы, поддержка, продажи, операционка

HR: отпуска, ДМС, командировки — бот по внутренним политикам; снижение нагрузки на HR на 30–50% в типовых пилотах.
Поддержка: ответ из FAQ и инструкций по продукту вместо «подождите оператора».
Юристы / закупки: поиск пунктов в договорах и шаблонах; точность растёт при правильном retrieval, а не при «самой умной» модели.
Продажи: актуальные прайсы, условия акций, скрипты — без риска выдуманной скидки.
Операционка: техкарты, чек-листы, регламенты склада — «как оформить возврат по пункту 4.2».

Корпоративная база знаний: что класть в RAG и что оставить вне

Корпоративная база знаний — не папка «всё подряд». В RAG попадает то, на что сотрудники регулярно ссылаются и что можно цитировать. Остальное — в CRM, тикет-систему или личные заметки.

Специалисты Alpina Digital, которые строят корпоративные RAG, описывают типичную картину: из тысяч «актуальных» файлов после аудита остаётся треть — дубликаты, устаревшие версии, битый OCR, пустые метаданные. Их разбор на Habr прямо говорит: 70–80% проблем enterprise-RAG — в данных, не в модели.

PDF, регламенты, инструкции, FAQ, Confluence/Notion-экспорт

Хорошо ложатся в RAG:

PDF и DOCX регламентов с оглавлением.
Экспорт wiki / Confluence / Notion (лучше с сохранением заголовков).
FAQ и база макросов поддержки.
Шаблоны писем, коммерческие условия (без черновиков).
Техническая документация с артикулами и кодами.

Плохо или опасно:

Сырые переписки без разметки.
Персональные данные без обезличивания (см. блок про 152-ФЗ ниже).
Черновики «версия_финал_2_точно_финал».
Видео без транскрипта.

Качество источников и ответственность за контент

Назначьте владельца базы знаний по каждому домену (HR, юристы, продукт). RAG не исправляет противоречия: если в двух PDF разные сроки гарантии, бот честно процитирует оба. Перед индексацией — правило «одна тема — один канонический документ».

Чек-лист: 5 типов документов для первого пилота RAG

Топ-10 вопросов сотрудников — то, что чаще всего спрашивают в чате HR/IT.
Актуальный регламент с датой редакции в названии файла.
FAQ поддержки — короткие пары вопрос–ответ.
Один «тяжёлый» PDF (20–50 страниц) — проверка чанкинга на реальном объёме.
Документ с кодами/номерами (SKU, пункты, приказы) — тест гибридного поиска, не только векторов.

Архитектура production-RAG: от загрузки PDF до ответа чат-бота

Архитектура RAG-системы в production — конвейер из семи этапов. Пропуск любого звена даёт «умный, но неправильный» бот.

Этап	Что происходит	Типичная ошибка
Ingestion	Загрузка PDF, парсинг, OCR при необходимости	Индексируют сканы без OCR — поиск «слепой»
Чанкинг	Разбиение на фрагменты с overlap и метаданными	Один PDF = один чанк — теряется точность
Эмбеддинги	Векторное представление каждого чанка	Модель без русского домена — путает синонимы
Индекс	Запись в Qdrant, pgvector или аналог	Нет фильтров по отделу — утечка контекста
Retrieval	Поиск кандидатов (вектор + BM25)	Только dense search — промах по номерам
Rerank	Пересортировка top-50 → top-5–8	LLM оценивает каждый чанк — дорого и медленно
Generation	Ответ LLM с цитатами и «не знаю»	Нет запрета на ответ без контекста — галлюцинации

Ingestion → чанкинг → эмбеддинги → индекс → retrieval → generation

Схема для команды:

PDF/регламент → парсер → чанки + метаданные → embedding → vector DB
         ↓
    Вопрос пользователя → hybrid search → reranker → prompt → LLM → ответ + источник

Где ставить фильтры по отделам и правам доступа

Фильтры — до отправки чанков в LLM:

В метаданных чанка: department, role, doc_class, valid_until.
При запросе: JWT/SSO определяет роль → в поиск уходит фильтр role IN (...).
После retrieval: повторная проверка ACL на каждый документ (паттерн крупных интеграций Confluence + GitLab).

Так вы не платите токены за фрагменты, которые пользователю всё равно нельзя показывать.

Production-RAG · схема пайплайна

От PDF до ответа с цитатой — один конвейер

Ниже — не «ещё один hero», а инженерная карта: ingest, чанки, эмбеддинги, Qdrant или pgvector, гибрид BM25+dense, реранкер и чат-бот с обязательной ссылкой на источник.

Ingest: PDF/регламент → парсер → чанки с метаданными и overlap.
Индекс: embedding-модель → векторы в Qdrant или pgvector.
Retrieval: запрос расщепляется на dense и BM25, слияние через RRF.
Ответ: bge-reranker → top-5–8 в LLM → чат с цитатой, не галлюцинация.

Дальше разберём, как не «рвать» смысл регламентов при чанкинге.

Цикл ~48 с · ingest → hybrid → citation

Чанкинг и подготовка PDF: как не «рвать» смысл регламентов

Чанкинг — разбиение документа на куски, по которым идёт поиск. Слишком мелко — теряется контекст абзаца; слишком крупно — в выдачу попадает «вода», а нужный пункт теряется.

Маркер: простыми словами. Чанк — это порция текста размером с небольшой раздел регламента. Система ищет не весь PDF целиком, а подходящие порции.

Базовый коридор для русских регламентов: 500–1000 токенов, перекрытие (overlap) 10–20%. Recursive-разбиение около 512 токенов на практике часто обгоняет «умный» семантический чанкинг по итоговой точности ответов.

Размер чанка, overlap, заголовки и метаданные

Сохраняйте заголовки разделов в тексте чанка или в метаданных section_title.
Parent-Child: маленький child (200–300 токенов) для точного поиска, большой parent (1500–2000) — в контекст LLM для связного ответа. Удобно для юрдоков и регламентов.
FAQ: чанк = один вопрос + ответ.
Техдоки: фиксированные 500 токенов + overlap 100.

OCR и «грязные» сканы — когда нужен препроцессинг

Если PDF — скан без текстового слоя, сначала OCR (Tesseract, облачные API, внутренние сервисы). Иначе эмбеддинги строятся по мусору. Признаки проблемы: бот «не находит» очевидные формулировки из бумажного приказа.

Таблица: размер чанка под тип документа

Тип документа	Размер чанка	Overlap	Риск при ошибке
Регламент / политика	500–800 токенов, parent-child	15–20%	Рвётся логика «если — то»
FAQ	1 Q + 1 A	0%	Дубли вопросов
Договор	300–500 (child), 1500+ (parent)	10%	Потеря номера пункта
Техдок с кодами	400–600	10–15%	Путаются артикулы
Презентация	Слайд = чанк	—	Теряются связи между слайдами

Эмбеддинги и векторный поиск: как машина «понимает» ваши документы

Эмбеддинги переводят текст в числовой вектор. Похожие по смыслу фрагменты оказываются «близко» в векторной базе данных — так работает семантический векторный поиск.

Маркер: простыми словами. Эмбеддинг — координаты смысла фразы в многомерном пространстве. «Отпуск 28 дней» и «ежегодный оплачиваемый отдых» окажутся рядом, даже если слова разные.

Для русского домена часто лучше multilingual-модели (multilingual-e5-large, jina-embeddings-v3), чем универсальные англоязычные embedding-модели на узкой лексике (внутренние замеры на корпоративных текстах это подтверждают).

Выбор embedding-модели для русского языка

Критерии:

Качество на ваших 50 тестовых вопросах важнее бенчмарка на Wikipedia.
Размерность вектора влияет на память индекса, не на «ум» напрямую.
Одна и та же модель — на индексации и на поиске (иначе векторы несопоставимы).

Метрики качества retrieval на своих данных

Минимум для MVP — 20–50 пар «вопрос → эталонный фрагмент/ответ». Считайте:

Hit-rate@k — попал ли нужный чанк в top-k.
Context Recall — насколько полно найденный контекст покрывает эталон (методика RAGAS).
Faithfulness — не придумала ли модель лишнего поверх цитаты.

Маркер: простыми словами. Faithfulness — «ответ не врёт относительно найденных абзацев». Context Recall — «мы вообще нашли нужный абзац».

Ранний симптом деградации: ответы стали длиннее и «водянистее» — модель компенсирует слабый поиск общими фразами.

Гибридный поиск и реранкинг: когда векторов мало

Чистый векторный поиск плохо ловит точные совпадения: номера приказов, SKU, пункт «4.2.1», фамилии, ИНН. Здесь помогает гибридный поиск: параллельно идут векторы (смысл) и BM25 (точные слова).

Маркер: простыми словами. BM25 — классический поиск по ключевым словам, как в старом добром поиске по сайту. Он находит «приказ №117», даже если векторный поиск увлёкся синонимами.

Результаты двух веток сливают через RRF (Reciprocal Rank Fusion) — объединение списков без ручного подбора весов на старте. Берут top-50 кандидатов, дальше — реранкинг.

BM25 + dense retrieval в одном запросе

Production-дефолт 2026:

Dense + sparse (BM25) параллельно.
RRF → 50 кандидатов.
Cross-encoder reranker → 5–8 в LLM.

Вес гибрида 0.5–0.7 на dense-ветку часто лучше крайностей «только вектор» или «только слова». Контекстные подписи к чанкам (50–100 токенов «из какого документа этот фрагмент») заметно снижают промахи поиска.

Реранкер как второй фильтр перед LLM

Маркер: простыми словами. Reranker (реранкер) — вторая модель, которая читает пару «вопрос + чанк» и ставит оценку релевантности. Это фильтр перед дорогой LLM.

Популярные варианты: bge-reranker-v2-m3, Cohere Rerank, Jina Reranker. Использовать LLM для оценки каждого чанка — антипаттерн: +5–10 секунд задержки и нестабильные баллы. В production-кейсе по охране труда замена LLM-реранкера на bge дала предсказуемость и скорость без потери качества.

Три признака, что вам нужен гибридный поиск, а не только векторы

Пользователи вводят номера, коды, артикулы — векторный поиск их «размывает».
В тестах из 30 вопросов 10+ промахов на точных формулировках из PDF.
Документы юридические / нормативные — цена ошибки в одной цифре высокая.

Qdrant или pgvector: что выбрать под корпоративный RAG

Векторная база данных — сердце RAG. Два практичных пути для малого и среднего бизнеса: отдельный Qdrant или расширение PostgreSQL через pgvector.

Маркер: простыми словами. pgvector — «векторный поиск внутри вашей обычной SQL-базы». Qdrant — отдельный специализированный сервис только под векторы и фильтры.

Qdrant — отдельный векторный движок

Плюсы: встроенный гибридный поиск и RRF, сильная фильтрация по payload, низкая задержка под нагрузкой, удобное масштабирование. Sweet spot — от ~5 млн векторов и сложные метаданные. Документация и обзор возможностей — на qdrant.tech.

pgvector — всё в PostgreSQL

Плюсы: один стек с CRM/аналитикой, ACID, SQL-фильтры и JOIN. Оптимален при до 1–5 млн векторов и умеренной частоте запросов, если Postgres уже есть. Путь «сначала pgvector → потом Qdrant» снижает риск на старте.

Сравнительная таблица

Критерий	pgvector	Qdrant
Старт для малой команды	★★★★★ (если есть Postgres)	★★★★
Гибридный поиск из коробки	Нужна доработка / внешний BM25	★★★★★
Фильтры по метаданным	SQL — гибко	Payload-фильтры — быстро
Масштаб 5M+ векторов	Требует тюнинга	★★★★★
Операционная сложность	Ниже (один сервис)	Отдельный кластер
Типичный MVP	Да, до ~1M чанков	Да, особенно если нужен hybrid сразу

Большинство корпоративных RAG в реальности — меньше 5 млн документов/чанков. Не усложняйте выбор: начните с того, что уже крутится в инфраструктуре.

Чат-бот по документам: интерфейс для сотрудников и клиентов

Финальный продукт для бизнеса — не «красивый поиск», а чат-бот по документам, который отвечает в Telegram, на портале или в виджете на сайте. Системы поиска по документам без диалога часто проигрывают по вовлечению: люди формулируют вопрос разговорно.

Цитирование источников и «я не знаю» вместо галлюцинаций

Жёсткие правила промпта:

Отвечать только по найденным фрагментам.
Если контекст пустой — фраза «В базе нет данных по этому вопросу» + предложение уточнить или обратиться к владельцу регламента.
Каждый факт — с цитатой: документ, раздел, дата редакции.

Шаблон ответа бота с цитатой

Пользователь: Сколько дней отпуска положено в первый год?

Бот: В первый год работы предусмотрено 28 календарных дней ежегодного
оплачиваемого отпуска после испытательного срока.

📎 Источник: «Положение об отпусках», раздел 3.2, редакция от 15.01.2026, стр. 7.

Если ваш случай нестандартный (совместительство, неполный день) — уточните
условия, я проверю смежные разделы.

Telegram, веб-виджет, внутренний портал

Telegram — быстрый пилот для сотрудников; привязка к SSO сложнее, зато порог входа нулевой.
Веб-виджет — для клиентской поддержки на сайте.
Внутренний портал — лучший контроль ACL и логов.

Свяжите бота с база знаний чат-бота как с единым индексом: один ingestion-пайплайн — много каналов выдачи.

Автоматизация пайплайна: MCP, n8n, Make и Cursor без «ручного зоопарка»

Ручная перезаливка PDF раз в месяц убивает доверие к RAG. Нужен контент-завод для корпоративной памяти: новый файл → индексация → уведомление → проверка качества.

Сценарий: новый PDF → индексация → уведомление в Telegram

Триггер: папка Google Drive / SharePoint / почта юристов.
Парсинг и чанкинг (скрипт или n8n).
Embeddings → upsert в Qdrant/pgvector.
Сообщение в Telegram: «Обновлён регламент X, переиндексировано 142 чанка».
Раз в неделю — прогон 20 контрольных вопросов (eval).

MCP-сервер к Qdrant/pgvector из Cursor

MCP (Model Context Protocol) подключает внешние инструменты к Cursor и Claude Code. Официальный mcp-server-qdrant даёт операции поиска и записи в коллекцию — удобно для «памяти проекта» и разработки RAG без постоянного переключения в админку.

Маркер: простыми словами. MCP — стандарт «подключи базу знаний к ИИ-редактору как плагин». Cursor видит ваш индекс как инструмент, а не как файл в чате.

Make.com для оркестрации без кода

Make (как и n8n) собирает цепочку: триггер → embeddings → vector store → LLM. Для маркетолога без бэкенда это вход в n8n rag / no-code RAG. Если хотите пройти такие сценарии шаг за шагом с разборами Make, n8n и Cursor — смотрите обучение по автоматизации и вайбкодингу на kv-ai.ru. Гибридный поиск и rerank в чистом no-code чаще дополняют HTTP-модулями к вашему API — закладывайте тонкий backend-слой на этапе роста.

Семь шагов «минимальный RAG за выходные»

Собрать 30–50 PDF/FAQ для пилота.
Почистить дубликаты, проставить даты в именах файлов.
Поднять Postgres + pgvector или Docker Qdrant.
Прогнать чанкинг 512 токенов / overlap 15%.
Индексировать multilingual-e5 (или аналог).
Сделать hybrid + bge-reranker на 30 тестовых вопросах.
Обернуть в Telegram-бота или внутренний веб-чат с цитатами.

RAG на выходные — а дальше? В канале Maya Pro в Telegram — разборы пайплайнов на Make, n8n, MCP и вайбкодинг: от индексации PDF до ботов с цитатами, без лишнего шума.

Подписаться на Maya Pro →

Как сделать RAG своими руками: пошаговый план внедрения

Как сделать RAG без месяцев R&D: пилот → метрики → масштаб. Создание RAG-системы — итерации, не «большой взрыв».

Пилот на 50–200 документов

Один отдел, один владелец контента.
20–50 тестовых вопросов от реальных пользователей.
Запрет GraphRAG и Agentic RAG на день один — по опыту enterprise-команд, 80% задач закрывает хороший классический RAG без агентов.
Tool-based RAG (модель сама решает, когда вызывать поиск) — следующий шаг после стабильного пилота; прирост качества может быть до ~70% относительно «всегда ищи».

Метрики: hit-rate, latency, удовлетворённость пользователей

Метрика	Зачем	Ориентир MVP
Hit-rate@5	Нашли ли нужный чанк	> 80% на пилоте
Latency p95	Скорость ответа	< 5–8 с с rerank
Faithfulness	Нет выдумок	> 0.85 (RAGAS)
Оценка пользователей	👍/👎 после ответа	> 70% положительных

Безопасность и персональные данные в документах

152-ФЗ: не индексируйте паспорта, зарплаты, медданные без обезличивания. Для чувствительных контуров — on-prem или российские API (GigaChat, YandexGPT) с корпоративным договором. Облачная LLM с вашими PDF допустима только после юридической оценки и, как минимум, договора обработки данных.

Roadmap: недели 1–4

Неделя	Задача	Результат
1	Аудит документов, 20 тестовых вопросов	Список источников, baseline «без RAG»
2	Ingestion, чанкинг, pgvector/Qdrant	Индекс, первый внутренний поиск
3	Hybrid + rerank, промпт с цитатами	Ответы без галлюцинаций на пилоте
4	Telegram/веб-бот, eval, алерты	Пилот в прод на 1 отдел, отчёт метрик

Ориентиры по бюджету в РФ: MVP 300–800 тыс. ₽ под ключ с интеграциями; эксплуатация при ~1000 запросов/день — порядка 5–20 тыс. ₽/мес на API против 70–110 тыс. ₽/мес на линии L1-операторов (рыночные оценки из отраслевых разборов).

Типичные ошибки RAG в бизнесе и как их исправить

Плохой чанкинг, устаревший индекс, слабый retrieval

Ошибка	Симптом	Исправление
Огромные чанки	Общие ответы, нет точных цитат	Уменьшить до 500–800, parent-child
Нет переиндексации	Бот цитирует старый регламент	Автотриггер на изменение файла
Только векторы	Промах по номерам пунктов	Включить BM25 + rerank
Нативный RAG на «Привет»	Лишние поиски, мусор в контексте	Tool-based: искать только по сути
GraphRAG в день один	Месяцы разработки, ноль пользы	Отложить до зрелого пилота

Перегруз контекста и дорогие токены

Не кладите в prompt 30 чанков «на всякий случай». После rerank — 5–8 фрагментов. Следите за суммарной длиной: длинный контекст бьёт по цене и не всегда по качеству (эффект «потерянной середины»).

Безопасны ли RAG-системы? — Да, если ACL на retrieval, логирование, защита от prompt injection и выбор контура данных согласован с юристами. RAG не безопасен «по умолчанию», если в индекс попали все Google Drive без фильтров.

FAQ по RAG и корпоративной базе знаний

Что такое RAG простыми словами?

RAG — это схема «найти в ваших документах → ответить нейросетью с цитатой». Модель не хранит регламент в памяти, она получает актуальные фрагменты в момент вопроса.

Чем RAG отличается от обычного чат-бота?

Обычный чат-бот опирается на зашитые сценарии и общие знания модели. RAG-система подтягивает ваши PDF и регламенты, может сказать «не знаю» и показать источник.

Какие документы лучше всего подходят для RAG?

PDF регламентов, FAQ, инструкции, экспорт wiki, шаблоны с фиксированными формулировками. Хуже — хаотичные чаты и черновики.

Что такое чанкинг в RAG?

Чанкинг — разбиение текста на фрагменты для поиска. Методы: фиксированный размер, по заголовкам, parent-child для длинных документов.

Зачем нужен гибридный поиск в RAG?

Гибридный поиск RAG совмещает смысл (векторы) и точные слова (BM25). Нужен, если в документах важны номера, коды и формулировки «буква в букву».

Что такое реранкинг и reranker?

Реранкинг — пересортировка найденных фрагментов второй моделью (reranker) перед ответом LLM. Отсекает похожий, но неверный контекст.

Qdrant или pgvector — что выбрать?

Есть Postgres и до ~1–5 млн векторов — начните с pgvector. Нужен hybrid, фильтры и запас по масштабу — Qdrant. Оба варианта рабочие для rag pdf и корпоративных регламентов.

Можно ли сделать RAG на n8n без программиста?

Да, для простого сценария: триггер файла → чанкинг → embeddings → vector store → AI Agent. Сложный hybrid и ACL чаще требуют тонкого backend, но n8n rag — нормальный старт.

Как подключить базу знаний к Cursor через MCP?

Установите MCP-сервер к Qdrant, пропишите коллекцию и ключи в настройках Cursor — модель получит инструмент поиска по индексу (qdrant mcp).

Безопасно ли отдавать корпоративные PDF в облачную LLM?

Зависит от договора, обезличивания и класса данных. Для ПДн и коммерческой тайны — закрытый контур или российские корпоративные API. Минимум: шифрование, логи, запрет на обучение модели вашими данными в договоре.

Сколько стоит запустить пилот RAG?

MVP с базовым ботом — ориентир 300–800 тыс. ₽ в РФ; ежемесячно API при тысяче запросов в день — 5–20 тыс. ₽ (без учёта зарплаты разработчика на поддержку).

Как проверить, что RAG отвечает правильно?

Соберите 20–50 вопросов с эталонами, меряйте hit-rate, Faithfulness и Context Recall; раз в месяц повторяйте прогон после обновления документов.

Что проверяли по источникам: инженерные разборы RAG 2026 на Habr (OTUS, Alpina Digital); документация Qdrant; метрики RAGAS; production-кейсы с hybrid search и bge-reranker; рыночные оценки стоимости пилотов в РФ.

Итог. RAG для бизнеса — это не модная аббревиатура, а создание базы знаний, которую можно измерять: чистые документы, грамотный чанкинг, векторный поиск плюс гибридный поиск и реранкинг, выбор Qdrant или pgvector под ваш стек, чат-бот по документам с цитатами и автоматизация через MCP, n8n или Make. Начните с пилота на 50–200 файлах и 30 вопросах — и вы получите не «ещё одну нейросеть», а рабочую корпоративную память с понятным ROI.