Что такое RAG и как он работает: система для LLM

Что такое RAG и как он работает: система для LLM

Что такое RAG и как он работает: система для LLM

Вечером, когда офис уже выдохнул и осталась только кофемашина, мне в личку прилетает короткое: “Почему бот придумал новый тариф, которого нет?”. Смотрю переписку, а бот бодро объясняет клиенту про несуществующую скидку и уверенно ссылается на документ образца 2022 года. Красота. Тут как раз вспоминаешь про Retrieval Augmented Generation – ту самую штуку, которая бережет нервы и деньги, потому что заставляет модель не фантазировать, а доставать факты из ваших документов. Если сказать по‑простому, RAG – это как если бы у вашего умного помощника на столе лежала аккуратная стопка папок, он заглядывал в них перед ответом и уже потом формулировал мысль.

Меня зовут Артур Хорошев, я автоматизирую рабочие процессы на make.com и собираю корпоративные LLM‑решения, чтобы бизнесы перестали кормить хаос своими нервами. Ниже расскажу, что такое RAG для LLM, почему это не модная приставка, а реальная экономия, и как встроить эту историю в ваш стек через автоматизации. Без лишних фанфар, зато с конкретикой, которая пахнет реальными задачами – FAQ, техподдержка, регламенты, базы знаний, товары, заявки.

Бот для телеграма на базе RAG
Телеграм-бот на RAG отвечает по вашим документам, а не по настроению.

Что такое RAG простыми словами

RAG расшифровывается как Retrieval Augmented Generation – дополненная поиском генерация. Перевожу на бытовой: модель не пытается помнить весь мир. Она получает вопрос, бежит в вашу базу знаний, вытаскивает несколько самых релевантных кусочков текста, возвращается и на их основе пишет ответ. Ключевая штука здесь – отдельная база знаний, которая пополняется и обновляется независимо от самой модели. Отсюда и плюсы: меньше галлюцинаций, выше точность, доступ к свежим данным. Если хотите еще короче, что такое RAG система – это архитектура, где генерация опирается на извлечение контекста, а не на чистую память модели.

Зачем это бизнесу из России, а не только лабораториям? Да потому что документы меняются, прайсы гуляют, сотрудники увольняются, а клиенты хотят ответы сейчас. RAG решает ту скучную, но дорогую проблему – согласованность знаний. В чат‑ботах, сервис‑десках, внутреннем поиске по конfluence, обучении сотрудников, в ответах на заявки. И если вы один раз спрашивали модель “когда мы закрываем квартал”, а она ответила датой из старого регламента – вы уже чувствуете цену вопроса.

Как работает RAG изнутри

Чтобы почувствовать идею, полезно разобрать этапы. Первым делом вы готовите базу знаний: собираете документы, вытаскиваете текст, чистите мусор, добавляете метаданные. Текст режется на куски – это и есть тот самый chunking дизайн в контексте RAG. Обычно берут от 300 до 800 токенов на кусок, делают небольшой перехлест 50-150 токенов, чтобы не потерять смысл на границах. Куски прогоняются через эмбеддинги – получается векторное представление текста. Эти вектора кладутся в хранилище вроде Qdrant, Weaviate или Postgres с pgvector. Когда прилетает пользовательский запрос, он тоже переводится в вектор, и система быстро ищет ближайшие по смыслу куски. Потом куски аккуратно складываются в подсказку для модели и уже на этой фактуре рождается ответ. При желании добавляются ссылки на источники и мини‑объяснение, откуда взялась каждая цифра.

Если совсем формально, что такое RAG архитектура – это связка из нескольких блоков: подготовка данных, хранилище векторов, поиск, возможная переоценка релевантности, сборка подсказки и генерация. Ничего мистического, зато тонких мест хватает. Например, если вы режете документы слишком крупно, то ответы распухают и модель теряет фокус. Если слишком мелко – отрезаете голову от хвоста и смысл распадается. Если метаданные кривые, то ретривер приносит не то. Если не следите за обновлениями, то бот снова начинает жить в прошлом. Не пугаю, просто честно предупреждаю, где обычно горит.

Chunking без магии

Что такое chunking дизайн в контексте RAG без бубнов. Я смотрю на структуру документа: заголовки, подзаголовки, таблицы, списки, даты. Стараюсь резать по смысловым абзацам и сохранять контекст раздела в метаданных. Для новостей и регламентов полезен временной признак – год и версия. Для прайсов – регион, валюта, категория. Таблицы лучше нормализовать в текст, но держать рядом оригинал, чтобы потом приложить ссылку. В ряде кейсов помогает семантическое разбиение, когда куски формируются не по длине, а по завершенности мысли. Там, где данные короткие и однотипные, нравится делать компактные куски 200-300 токенов с небольшим overlap. Это не догма, просто рабочие размеры, которые не подводили.

Извлечение и переоценка

Как работает RAG на шаге поиска. Запрос приводится к вектору, система берет топ-N кандидатов, после чего может включиться переоценка – re-ranking. Иногда это отдельная легкая модель, иногда просто хороший BM25 поверх векторного поиска, иногда гибрид. На практике гибридный поиск дает меньше промахов. Еще помогает переписка запроса перед поиском – query rewriting. Пользователь пишет “где акт”, а система превращает это в “порядок оформления акта выполненных работ по договору N, июль 2025”. Мелочь, а релевантность растет.

Сборка подсказки и ограничения

У любой модели ограничен контекст. Поэтому важно собирать подсказку компактно: заголовок, сжатый список источников, сами фрагменты с короткими преамбулами и строгие инструкции не додумывать за документ. Нравится техника с цитатами: просим модель ставить ссылки вида [1], [2] в ответе и в конце коротко показываем источники. Уровень доверия у пользователя сразу поднимается, а отдел контроля вздыхает спокойнее. Если нужно коротко – добавляем динамическое сжатие фрагментов перед финальной генерацией. Да, это еще один шаг, но он окупается, когда у вас большой контекст и мало терпения у читателя.

Где RAG реально спасает

Служба поддержки с типовыми вопросами, где база из сотен статей. Продажи с прайсами и акциями, которые обновляются каждый месяц. Внутренние регламенты и онбординг, когда руководитель в пятый раз объясняет, как оформлять отпуск правильно. Юридические шаблоны, технические спецификации, сложные FAQ у диджитала. В российской реальности добавлю еще заявки из форм, документы в 1С, переписку в Telegram и VK, корпоративные вики типа Notion или Confluence. Во всех этих случаях RAG спокойнее и дешевле, чем попытка научить модель знать все заранее. Плюс вы не прожигаете бюджет на постоянный дообучающий марафон, достаточно поддерживать живую базу знаний.

Автоматизация ведения соцсетей с RAG
Контент для соцсетей можно собирать по регламентам и кейсам из вашей базы знаний.

Интеграция с make.com: от вопроса до ответа без суеты

Теперь к приятному – как это собрать руками так, чтобы оно работало, не падало и не требовало шамана по выходным. Платформа make.com хороша тем, что вы можете выстроить весь поток: входящий запрос, извлечение, генерация, логирование, обратная связь, обновление индекса. Например, прилетает сообщение в Telegram‑бот. Триггер подхватывает текст, нормализует его, по HTTP дергает ваш ретривер, который сидит на Qdrant или Postgres с pgvector, возвращает набор фрагментов и ссылки. Дальше make передает это в LLM со строгим промптом, забирает ответ, добавляет в журнал, отправляет пользователю и параллельно складывает в базу для последующей оценки качества. Если пришел неизвестный вопрос – автоматом создается карточка на доработку базы знаний, чтобы добавить недостающий документ. Красиво, потому что все двигается само и прозрачно.

Если хочется меньше своего кода, используйте облачный векторный сервис и готовые модули. Но даже когда сборка на кончиках пальцев, make позволяет аккуратно разложить шаги, добавить ретраи, оповещения в Telegram, вебхуки для CRM, и вообще обвязать это бизнес‑процессом, а не набором скриптов. Кстати, если вы откладывали автоматизации на потом – очень советую не тянуть. У меня есть обучение по make.com и готовые блюпринты по make.com, где RAG‑сценарии уже упакованы так, чтобы начать с нуля и не сломать себе выходные.

Что такое RAG агент и когда он нужен

Иногда простой конвейер запрос-ответ не хватает. Пользователь может спросить сложное, нужно сделать несколько шагов: уточнить параметры, сходить в CRM, проверить статус, извлечь документы, сравнить правила по регионам и только потом отвечать. Вот тут в игру заходит RAG агент. Это надстройка, которая умеет планировать внутри одного запроса, выбирать инструменты, принимать решение, когда и что извлекать, а когда лучше уточнить. В экосистеме make.com такое поведение собирается как серия сценариев с контекстом и ветвлениями. Агент не маг и не начальник, но он избавляет от тупых циклов и ненужных шагов, а главное – снижает издержки, потому что не дергает генерацию без надобности. В бизнесе это проявляется просто: меньше странных ответов, больше аккуратных действий по делу.

Make AI агент и инструменты
RAG агент выбирает инструменты: где искать, что извлекать, когда спросить уточнение.

Секреты стабильности, о которых обычно забывают

Стабильный RAG не рождается из красивой презентации. Нужна гигиена. Базу знаний обновлять по расписанию и по событиям, не ждать конца квартала. Документам присваивать версии и указывать сроки годности, чтобы ретривер не тягал устаревшее. Хранить сырые источники и логи извлечений – потом пригодится для аудита. Периодически гонять набор контрольных вопросов и сравнивать ответы, чтобы видеть деградацию. Следить за тем, чтобы подсказка была компактной и честной. Для RAG модели просить цитаты и ссылки, для сложных случаев – включать перепроверку на вторую модель или хотя бы делать быстрый sanity‑check. И еще маленький трюк: храните мини‑аннотации к документам, это ускоряет поиск и помогает человеку верифицировать источник за 5 секунд, а не за 5 минут.

Про безопасность. В корпоративных сценариях разрешения решают. Фрагменты нужно хранить с метками доступа и фильтровать на этапе извлечения. Тогда сотрудник из отдела A не увидит то, что могут читать только люди из отдела B. В make это решается метаданными и условиями на маршрутах. Простая вещь, но если ее забыть – потом тяжело объяснять, почему бот прислал лишнее. Да, и еще: не пропускайте личные данные в промпт без нужды, лучше подставлять только то, что правда нужно для ответа, и использовать анонимизацию там, где уместно.

Короткая история из практики

Компания из ecom с большим каталогом и быстрой ротацией цен спросила сделать бота для Telegram и сайта. До RAG ответы были красивые, но местами выдуманные, да и тарифы за месяц менялись три раза. Мы сделали простую RAG систему: ежедневная срезка прайса, метаданные по региону, свертка таблиц в компактный текст с ссылкой на оригинал, гибридный поиск и обязательные цитаты. Сценарий на make.com ловил вопросы, дергал ретривер, выдавал обзор 3-5 релевантных фрагментов и только потом вызывал генерацию. С первого месяца упали обращения в поддержку по ценам на 27 процентов, а жалобы на “бот врет” почти исчезли. Звучит скромно, но для линии поддержки это местами как отпуск. Я сначала думал, что эффект будет ниже, но вышло приятнее.

Можно ли обойтись без RAG и просто дообучить модель

Можно, но часто это как забивать гвоздь микроскопом. Fine-tuning хорош, когда у вас устойчивая, однотипная формулировка и нет жесткой потребности в свежести. RAG же про динамику и про ссылочность. Если вы меняете регламенты или каталоги, RAG выигрывает и по цене владения, и по контролируемости. Комбо тоже живет: небольшой тонкий тюнинг на стиле и формате ответа плюс RAG на фактах. Но если честно, в 7 случаях из 10 классическая RAG модель решает намного больше боли, чем попытка напихать все в память. А уж для русскоязычных корпоративных баз – вообще спасение, потому что локальные термины и нюансы прям просятся в отдельную базу.

С чего начать, если хочется вчера

Берете один процесс, где много повторяющихся вопросов и часто меняется фактура. Собираете документы, приводите к тексту и метаданным. Делаете аккуратный chunking, строите эмбеддинги и поднимаете векторное хранилище. На make.com собираете сценарий: триггер, поиск, генерация, отправка, логирование. Начинаете с малого – один канал, один отдел, набор из 50-100 контрольных вопросов. Через неделю накапливаете фидбек и чините самые громкие дыры: нерелевантные куски, шумные документы, ошибки в метаданных. Потом подключаете второй канал и отчетность по качеству. Если нужна помощь или хочется ускориться, забирайте готовые схемы из моих материалов, я их обкатывал не раз и довольно щепетилен к мелочам. И да, вот удобная ссылка, чтобы не потерять контакты: Хотите научиться автоматизации рабочих процессов с помощью сервиса make.com и нейросетей ? Подпишитесь на наш Telegram-канал.

Кому это выгодно прямо сейчас

Руководителям, у кого поддержка завалена простыми вопросами. Продактам, у кого документация расползлась по дискам, а релизы катятся каждую неделю. Маркетологам с контентом, которые хотят быстро собирать посты по свежим кейсам. Юристам, которые не хотят заново объяснять, чем отличается две версии договора. Отделам обучения, где новые сотрудники тонут в материалах, а наставник уже не помнит, что обещал вчера. Если из списка увидели себя – RAG точно даст вам плюс в порядке и в деньгах. Ну и конечно тем, кто строит системную автоматизацию на make.com и хочет, чтобы процессы были не просто быстрыми, но и умными.

Если хочется идти вместе и без боли, вот два быстрых шага. Курсы и разборы с пошаговыми сценариями – обучение по make.com. Для тех, кто любит сразу внедрять, есть готовая подписка с шаблонами – Блюпринты по make.com. Под капотом там как раз RAG паттерны, проверенные на реальных кейсах.


FAQ

Что такое RAG в ИИ и зачем он нужен бизнесу

RAG – это подход, где модель перед ответом извлекает факты из вашей базы знаний и строит текст на основе найденного. Для бизнеса это меньше выдумок, больше точности, актуальность без постоянного дорого дообучения. Особенно полезен в чат‑ботах, поддержке, документации, продажах и внутреннем поиске.

Как работает RAG от запроса до ответа

Запрос преобразуется в вектор, система ищет близкие по смыслу фрагменты в базе, формирует компактный контекст и отдает его модели. Модель пишет ответ с опорой на эти фрагменты и может добавить ссылки на источники. Вся магия в правильной подготовке данных и аккуратной сборке подсказки.

Что такое RAG модель и чем она отличается от обычной

RAG модель не какая‑то особая разновидность, а обычная LLM, которая работает в связке с поиском и базой знаний. Отличие в архитектуре: она не полагается только на память, а подгружает релевантный контекст из внешних данных прямо перед генерацией.

Что такое RAG retrieval augmented generation простыми словами

Это генерация текста, дополненная извлечением фактов. Модель отвечает не из головы, а после того, как нашла нужные куски ваших документов. Получается быстрее, правдивее и прозрачнее, потому что видны источники.

Что такое chunking дизайн в контексте RAG и какие параметры выбрать

Chunking – это разрезание документов на осмысленные фрагменты. Часто подходят куски 300-800 токенов с overlap 50-150. Резать лучше по абзацам и заголовкам, сохранять метаданные про раздел, дату, версию, регион. Таблицы превращать в компактный текст и прикладывать ссылку на оригинал для проверки.

Что такое RAG агент

RAG агент – это логика, которая управляет шагами: уточняет вопрос, решает когда искать, чем искать, куда сходить в внешние сервисы, а когда сразу отвечать. Это полезно, если задача требует нескольких действий и инструментов. В make.com такая логика собирается из сценариев с ветками и условиями.

Можно ли построить RAG без кода и интегрировать с make.com

Да, ключевые блоки легко собрать на make.com: прием сообщений, вызов ретривера по HTTP, генерация, логирование, оповещения, обновление индекса по расписанию. Для быстрого старта можно взять мои блюпринты или пройти обучение.

Когда лучше дообучать модель, а когда делать RAG

Дообучение хорошо для стилистики и стабильного знания, которое редко меняется. RAG нужен там, где информация живая, нужна ссылочность и контроль версий. Комбинация тоже работает: легкий fine‑tune на стиле плюс RAG на фактах.

Какие хранилища подходят для RAG

Подойдут Qdrant, Weaviate, Elasticsearch с kNN, а также PostgreSQL с pgvector. Выбирают по бюджету, нагрузке и удобству администрирования. Главное – держать в порядке метаданные и обновления, иначе поиск будет приносить не то.

Как оценить качество RAG

Соберите набор контрольных вопросов, храните логи, требуйте у ответов цитаты и сравнивайте релевантность найденных фрагментов. Раз в неделю прогоняйте автотесты, а неизвестные вопросы отправляйте в очередь на пополнение базы знаний. Это занимает меньше времени, чем кажется, а пользы на порядок больше.

Интересное