RAG-пайплайн в Make: как построить его эффективно и просто
RAG-пайплайн в Make: как построить его эффективно и просто
Картина знакомая каждому, кто хоть раз пытался приручить хаос в компании. Понедельник, девять утра, кофе чуть тёплый, в Telegram уже пятнадцать непрочитанных сообщений с пометкой срочно. Клиенты спрашивают одно и то же в чате, менеджеры гоняют ссылки по кругу, а база знаний будто живёт отдельной жизнью где-то на Яндекс.Диске. И вот в этот момент приходит мысль, почти философская: может, пора перестать отвечать вручную и собрать нормальный умный ответчик, который и ищет, и пишет, и не ломается в три клика. Это и есть момент, когда на сцену выходит RAG-пайплайн, собранный на Make.com. Ничего сверхъестественного, просто аккуратно сложенные блоки, которые вытаскивают нужные куски знаний и превращают их в человеческий ответ.
Если говорить по-простому, RAG – это гибрид: поиск плюс генерация. Он не пытается выдумывать мир с нуля, он первым делом ищет в ваших документах, заметках, статьях и переписках, находит релевантные фрагменты, а уже потом формирует ответ. Меньше фантазии, больше фактов. И это радикально спасает от ситуаций, когда ассистент уверенно отвечает ерунду. На Make.com такой rag пайплайн собирается из знакомых кирпичиков – вебхуки, парсеры, HTTP запросы, итераторы, и сценарии, которые можно запускать по расписанию или по событию. Красота в том, что у вас нет обязательств писать код на неделю вперёд, всё тянется модульно и прозрачно, как лего, только без боли под ногами.
Из чего на деле состоит рабочий RAG
У любой компании есть свои кладовки знаний: презентации на Яндекс.Диске, ответы техподдержки в Notion, переписки с клиентами в Telegram, статьи в блоге на WordPress, иногда PDF с инструкциями, которые открываются только на третьей попытке. RAG-пайплайн собирает этот зоопарк в индекс – разбивает тексты на куски, превращает их в числовые векторы с помощью моделей эмбеддингов, складывает в векторную базу, а потом по запросу вытаскивает ближайшие по смыслу фрагменты. Дальше – аккуратный промпт и генерация ответа, где каждый абзац опирается на найденный контекст. Стоит добавить вывод ссылок на источники, и уже можно жить чуть спокойнее.
Источники в России обычно те же: Яндекс.Диск и Google Drive для файлов, Notion и Confluence для документов, базы в Airtable или Google Sheets, сайты на Tilda или WordPress, переписки в Telegram. Всё это легко подтягивается через модули Make.com или обычные HTTP запросы. Если есть CRM – amoCRM или Битрикс24 – можно подмешать туда карточки сделок и FAQs отдела продаж. Результат не выглядит магией: просто нормальный, по-человечески собранный контур знания.
Немного практики: три сценария, которые закрывают 90% задач
Первый сценарий – индексация. Он забирает документы из хранилищ, режет на небольшие куски примерно по 800-1200 символов с небольшим перекрытием, где-то 100-150 символов, чтобы мысль не рвалась. В Make это делается простыми инструментами: модуль для загрузки файла, преобразование в текст, сплит по абзацам, итератор, дальше – сборка чанков нужного размера. Каждому куску присваиваем метаданные: заголовок, источник, дата обновления, автор, и уникальный хэш содержимого, чтобы не переиндексировать одно и то же. Хэш удобно делать прямо в Make – md5 или sha1 подойдут, идеальной криптостойкости не требуется.
Второй сценарий – векторизация. На каждом куске вызываем модель эмбеддингов. Вариантов несколько: OpenAI embeddings, GigaChat от Сбера, YandexGPT с их эмбеддингами – все прекрасно вызываются через HTTP модуль. Главное – фиксировать версию модели в переменных, чтобы потом не собирать индекс заново просто так. Результаты складываем в векторную базу. Для России очень удобен Qdrant – можно поднять на своём сервере или использовать облако. Альтернатива – Weaviate или Chroma, а если хочется управляемый сервис, берите Qdrant Cloud. Связь опять же через HTTP – добавили коллекцию, записали векторы с метаданными и спите спокойнее.
Третий сценарий – ответы. На вход приходит запрос из Telegram-бота, формы на сайте или чата техподдержки. Мы превращаем вопрос в вектор, ищем top-k ближайших документов в базе – 5-8 штук обычно хватает – и собираем промпт. Я люблю формировать контекст с заметками-ограничителями: где хранится источник, что делать, если нет ответа, какие форматы лучше не использовать. Это помогает сократить воду и уменьшает риск, что генерация напишет уверенную ерунду. Если хочется прямо удовольствие, добавьте rerank – пересортировку найденных фрагментов. Можно дернуть внешний сервис с перекрёстной проверкой релевантности, можно применить гибридный поиск – одновременно по вектору и по ключевым словам. Трудно – нет, полезно – да.

Как это собирать на Make, чтобы оно не падало и не бесило
Начните с аккаунта на Make.com и одного чистого рабочего пространства. Подключите источники – Яндекс.Диск, Google Drive, Notion, Telegram Bot, базу данных. Если нужного модуля нет, работает добрый модуль HTTP – ставьте метод, заголовки, тело, проверьте авторизацию токеном, сохраните шаблон. В индексе заводим структуру Metadata – пусть это будет Postgres или Airtable, так проще отлаживать. В текстовые поля складываем путь к файлу и хэш. Если хэш совпал с прошлой версией – пропускаем документ, экономим время и деньги на эмбеддингах.
Парсинг файлов часто превращается в скучную борьбу с PDF и таблицами. Беда, да. Тут есть простой трюк: прогоняйте все файлы через промежуточный конвертер в чистый текст. Документы .docx и .xlsx вытаскиваются штатными коннекторами, PDF – лучше отдавать в сервисы, которые умеют выдёргивать текст с сохранением абзацев. Не гонитесь за идеальным форматированием, для rag пайплайн важнее стабильность разметки и маркировка заголовков. Если попадаются сканы – решайте, готовы ли вы к OCR. Если да – разнесите OCR отдельно, иначе индекс будет превращаться в кашу из пробелов и непроглотываемых символов.
Генерацию ответа лучше делать отдельным модулем. Сначала соберите системные инструкции – кто вы, какого стиля придерживаться, на каком языке отвечать. Затем подставьте контекст из найденных фрагментов и сам вопрос. Обязательно ограничьте тон и длину – по делу, со ссылками, без излишней уверенности. Чуть-чуть сухости полезно. Если работаете с клиентскими данными, включите простую проверку: не отдали ли мы случайно персональные данные или внутренние ссылки. Это звучит занудно, но как только бот однажды подсветит приватный адрес таблицы с зарплатами, романтика закончится, увы.

От Telegram до сайта – один и тот же мозг, просто разные входы
Самый быстрый старт – Telegram-бот. Он не капризничает, легко подключается и идеально подходит для внутренней базы знаний. В сценарии у вас один вход – вебхук Telegram, затем идёт векторный поиск, сборка ответа, отправка обратно в чат. На сайте история та же: форма вопроса пуляет запрос на вебхук Make, дальше всё по схеме. Если хочется красиво, добавьте на сайт мини-чат с историей диалога и кнопкой Показать источники. Бизнес сразу чувствует разницу: сотрудники меньше отвлекают друг друга, новичков обучать проще, клиенты получают ровный ответ без Сержей Ивановичей и без стенаний по поводу Доступа нет.
Немного цифр, чтобы было не просто красиво, а полезно. Чанк 800-1200 символов – хороший компромисс между точностью и скоростью. В топ-8 результатов обычно есть нужные фрагменты, дальше качество почти не растёт. Эмбеддинги обновляйте не чаще раза в неделю, если база не меняется активно. Кэшируйте ответы на типовые вопросы по ключу – md5 от текста запроса плюс часовой пояс пользователя – экономия бывает до 30% запросов. И не бойтесь разнести поиск и генерацию в разные сценарии – так проще масштабировать и ловить ошибки.
Про цену ошибки и то, как не тратить лишнего
RAG хорош тем, что он контролируемый. Если ответ плохой – всегда можно увидеть, какие фрагменты подтянулись. Поэтому логируйте каждый шаг. Сохраняйте вопрос, id найденных документов, время, стоимость запроса, ссылку на исходные файлы. Даже простая таблица в Google Sheets или Notion даст прозрачность и чувство контроля. Если возникла ошибка 429 от провайдера модели – включайте в Make «Sleep» и повтор с экспоненциальной паузой. Если API временно капризничает, отправляйте пользователю тактичную фразу из серии обработка чуть дольше обычного, мы уже чиним – и ставьте асинхронную очередь. Люди ценят честность, а не молчание по полчаса.
Есть ещё тема, про которую вспоминают не сразу – безопасность. Храните токены в подключениях Make, а не в переменных в чистом виде. Если обрабатываете персональные данные, держите хранилище в РФ и проверьте, что ваши провайдеры соответствуют требованиям 152-ФЗ. В самом индексе можно хранить только текст и ссылки, не тяните лишнего. Телеграм-логины и почты маскируйте до нераспознаваемого вида, иначе потом будет больно объясняться, почему бот вдруг вспомнил фамилию и отчество клиента трёхлетней давности.

Мини-история с полей
Одна онлайн-школа пришла с классической болью. Статьи в блоге на WordPress, уроки и шпаргалки в Notion, ответы кураторов расползлись по Telegram. Сценарий сборки индекса тянет тексты из WordPress и Notion, режет на чанк, получает эмбеддинги и складывает в Qdrant. Телеграм-бот у студентов под рукой, запросы летят ночью, днём, в метро. Бот отвечает ссылками на нужный урок, подсказывает, где в Notion лежит шпаргалка, сверяет политику пересдач с базой. Через неделю видно по метрикам: нагрузка на кураторов упала на треть, а студенты стали чаще дочитывать материалы – им буквально кладут правильный абзац под нос. Это не чудо, просто правильная механика.
Про модные слова и полезные реалии
Много слышно про многоагентные подходы – отдельный агент ищет, второй проверяет, третий переписывает человеком. Подобные конструкции действительно помогают там, где запросы сложные, а данные разношёрстные. В Make это можно организовать тремя параллельными ветками и финальным слиянием результатов по качеству. Но не гонитесь за громкими названиями. Если у вас отдел продаж хочет быстрый ответ по доставке и гарантии – достаточно одного доброго rag пайплайн без салюта из шести агентов. Начните с простого, добавляйте сложность только когда она окупается.
Где учиться и с чего стартовать прямо сегодня
Если хочется пройти путь без лишних шишек, у меня два простых предложения. Хотите научиться автоматизации рабочих процессов с помощью сервиса make.com и нейросетей ? Подпишитесь на наш Telegram-канал – там я разбираю живые кейсы, делюсь промптами и выкладываю разборы сценариев. И да, есть полноценный курс: Обучение по make.com – от азов до продвинутых RAG-сборок, с упором на российские сервисы. А если хочется стартовать буквально завтра – берите готовые сценарии из подписки Блюпринты по make.com, настройка займет вечер, максимум два, и уже можно запускать пилот.
И напоследок мелочь, но важная. Не ждите идеальной структуры данных. В реальных компаниях она редко бывает идеальной. Просто начинайте – подключите один источник, соберите первую версию индекса, прогоните десяток вопросов, посмотрите в логах, что подтягивается. Когда бот впервые правильно ответит клиенту в выходной, вы поймёте, что оно того стоило. Даже если кофе опять чуть тёплый.
FAQ
Что такое RAG-пайплайн и чем он лучше просто генерации?
Это связка поиск плюс генерация. Сначала система ищет релевантные фрагменты в ваших документах, потом на их основе формирует ответ. Так меньше выдумок и больше фактологии. Для бизнеса это означает стабильные ответы и меньше рисков накосячить в важных деталях.
Из чего начать, если ничего ещё не готово?
Заведите аккаунт на Make.com, подключите один источник – например Notion или Яндекс.Диск, и соберите минимальный индекс. Добавьте векторную базу Qdrant, сделайте простой сценарий вопросов из Telegram. Рабочий прототип делается за 1-2 вечера, не пугайтесь.
Какие векторные базы подходят для России?
Qdrant – отличный вариант, можно развернуть на своём сервере или в облаке. Также подойдут Weaviate и Chroma. Если нужна полностью управляемая история – смотрите Qdrant Cloud. Подключение в Make делается через HTTP модуль.
Какие модели использовать для эмбеддингов и генерации?
Для эмбеддингов подойдут OpenAI, GigaChat, YandexGPT – выбирайте по доступности и стоимости. Для генерации ответа берите ту же экосистему, что у вас разрешена и удобно оплачивается. В Make это обычные HTTP вызовы с передачей контекста и параметров.
Сколько это стоит и как сэкономить?
Зависит от объёма индекса и количества запросов. Экономия достигается кэшированием, дедупликацией по хэшу и ограничением размера контекста. В среднем, при грамотной настройке расходы получаются предсказуемыми и не пугают бухгалтерию.
Можно ли собрать rag пайплайн без кода?
Да. В Make.com это визуальные сценарии, а там, где нет готового коннектора, выручает модуль HTTP. Про код помнить полезно, но обязательства нет.
Чем RAG отличается от дообучения модели?
Дообучение впитывает знания в саму модель и может быть дорогим, к тому же знания трудно оперативно обновлять. RAG использует внешнюю базу знаний – обновили документы, и ответы обновились. В быстро меняющихся доменах это проще и дешевле.
Как подключить Telegram и вывести источники в ответе?
Создайте бота через BotFather, подключите его к Make по вебхуку, запросы отправляйте в сценарий поиска. В ответ добавляйте ссылки на исходники из метаданных найденных чанков – пользователи любят проверять, откуда взялась информация.
Можно ли работать с персональными данными и не нарушать закон?
Можно, если хранить и обрабатывать данные в соответствии с требованиями 152-ФЗ, выбирать хранилища в РФ и не передавать лишнего в внешние сервисы. Анонимизируйте поля, маскируйте идентификаторы, ограничивайте права доступа и логируйте только то, что действительно необходимо.
Где обучиться и получить готовые шаблоны?
Для системной прокачки подхода смотрите курс Обучение по make.com. Если хочется сразу готовые сценарии – Блюпринты по make.com. Ну и оперативные разборы, новости и лайфхаки выходят в нашем канале – подписывайтесь.


