Система векторного поиска и AI-анализа православных текстов
AZBUKA-AI — это микросервис для интеллектуального поиска ответов на православные вопросы на основе материалов портала «Азбука веры». Система использует современные технологии векторного поиска и искусственного интеллекта для предоставления точных и релевантных ответов со ссылками на первоисточники.
Ключевая особенность: Каждый ответ содержит прямые ссылки на документы с azbyka.ru, на основе которых был сформирован ответ. Это гарантирует проверяемость и достоверность информации.
В основе системы лежит PostgreSQL с расширением pgvector — специализированное решение для хранения и поиска векторных представлений текстов (embeddings).
Каждый текстовый фрагмент преобразуется в математический вектор из 1536 чисел (embedding), который представляет смысл текста. При поиске система сравнивает вектор вопроса с векторами всех сохраненных текстов и находит наиболее семантически близкие фрагменты — даже если в них нет точных совпадений слов.
Вместо хранения целых статей (которые могут содержать 5000-10000 слов), система разбивает каждый документ на небольшие семантические блоки (chunks) размером 1000 токенов (~750 слов) с перекрытием в 100 токенов между соседними фрагментами.
Векторный подход с chunking радикально снижает затраты на работу с AI-моделями (DeepSeek, GPT, Claude) при сохранении высокого качества ответов.
💡 Экономия: до 10× меньше затрат на AI при лучшем качестве ответов!
Векторный поиск гарантирует, что AI анализирует только самую релевантную информацию, что повышает точность ответов и снижает вероятность “галлюцинаций” модели.
Комбинация векторного поиска и chunking обеспечивает высочайшую точность ответов благодаря нескольким механизмам:
Вопрос преобразуется в вектор, отражающий его истинный смысл, а не просто слова
Система находит chunks с similarity > 0.75 (от 0 до 1), отсекая нерелевантную информацию
AI получает четкую инструкцию: “Отвечай ТОЛЬКО на основе предоставленных документов”
Каждый ответ содержит прямые ссылки на документы azbyka.ru, которые использовались
Если релевантных chunks мало, система автоматически парсит новые статьи с azbyka.ru
Результат: Система не “выдумывает” ответы, а строит их исключительно на проверенных православных текстах с возможностью верификации через первоисточники.
Разработано для проекта RefHold