Модели развития
Информационный бюллетень
Исследования
ENG
EN
RU   EN
Пресс-центр

«ВЫГОН Консалтинг» оценила качество LLM-решений для юристов с использованием нефтегазового датасета и отраслевых нормативных документов

Новости компании
Эксперты «ВЫГОН Консалтинг» изучили качество LLM-решений для корпоративных юристов. Для тестирования использовались нормативно-правовые акты (НПА), регулирующие российскую нефтегазовую отрасль. Предметом исследования стали RAG-системы (Retrieval-Augmented Generation - генерация ответа на основе извлеченной из базы данных актуальной информации), активно используемые разработчиками в создании ИИ-продуктов, в том числе для юридической сферы. Результаты показали, что модели хорошо справляются с простыми фактологическими вопросами, но при анализе ситуаций доля правильных ответов снижается. Тем не менее, исследователи отмечают рост качества LLM-продуктов и хорошие перспективы их использования для юридического домена.
По оценкам авторов исследования, количество только основных федеральных НПА, регулирующих нефтегазовую отрасль, превышает 12 тыс., а количество ежегодных поправок к ним исчисляется сотнями. Справочные правовые системы часто не находят нужные документы при синтаксическом поиске ответа на комплексный юридический запрос. Генеративный ИИ способен дополнить такие системы недостающими аналитическим функционалом, сокращая время на поиск, изучение НПА и подготовку ответа.

Первый опыт практического использования чат-ботов на базе общих LLM в суде привел к скандалам из-за галлюцинаций – выдуманных судебных решений (2022 год, дело Mata vs. Avianca) Уже к 2024 году использование RAG-систем в коммерческих приложениях позволило снизить долю галлюцинаций до 17% по сравнению с общими моделями в юридическом домене (статья исследователей Стэндфордского университета «Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools»).

На сегодняшний день основными проблемами RAG остаются нерелевантность и неточность извлечения информации. В юридическом домене это усугубляется терминологической многозначностью и сложными логическими конструкциями. Однако несмотря на имеющиеся недостатки этого метода, все больше юристов в мире уже используют или планируют использовать его в работе. Темпы роста глобального рынка юридического ИИ до 2030 года, по прогнозу Grand View Research, составят 17,3% ежегодно.

Популярные фреймворки (готовые платформы для ИИ-разработки) позволяют быстро создавать RAG-решения, но из-за низкой гибкости при кастомизации такие инструменты для внедрения не используются. Поэтому «ВЫГОН Консалтинг» для исследования был создан мультиагентный пайплайн, а также собрана и обработана база из более 500 актуальных федеральных НПА и судебных актов по семи отраслям права, регулирующим нефтегазовую отрасль. К этой БД был сформирован специальный отраслевой датасет из наборов вопросов разного уровня сложности, релевантных сниппетов (коротких информативных фрагментов текстов) и эталонных ответов. При тестировании системы использовались коммерческие и опенсорсные LLM разного размера, а также общие и «рассуждающие» модели.

Оценка качества генерации показала, что на простых фактологических вопросах фронтирные коммерческие и опенсорсные модели (Claude 3.7 Sonnet, GPT 4.1, Qwen 3 235B A22B, Deepseek R1, Deepseek V3) в более чем 90% случаев дают правильный ответ, галлюцинации отсутствуют. Российские (YandexGPT Pro 5, GigaChat 2 Max) и более слабые опенсорсные модели (Qwen 2.5 32B и Qwen3 32B) также неплохо справляются с поставленными задачами - доля правильных ответов составляет 65-75%, галлюцинации не превышают 15%.

Вопросы, требующие анализа ситуации, вызывают сложности даже у сильных моделей: доля правильных ответов у них снижается до 60-75%, галлюцинации достигают 14-33%. Лучше всех аналитический функционал реализован у «рассуждающей» модели Claude 3.7 Sonnet, которая заметно опережает конкурентов как по правильным ответам (75%), так и по самому низкому количеству галлюцинаций (14%). Китайские модели также демонстрируют удовлетворительное качество: Qwen 3 235B находится практически на уровне с фронтирной американской GPT 4.1 с долей правильных ответов 64%. К этой же группе можно отнести обе версии китайской DeepSeek (R1 и V3), правильно отвечающих на 56-60% вопросов. Доля правильных ответов у российских моделей и Qwen 32B составляет 42-47%.

В данном исследовании продемонстрированы далеко не все возможности RAG-оптимизации. Однако даже полученные результаты говорят о том, что повышение эффективности RAG-решений на всех цепочках от препроцессинга до генерации позволяет существенно улучшить качество LLM в юридическом домене и сделать его полезным инструментом для корпоративных юристов промышленных компаний в их повседневных задачах - анализе ЛНА, НПА, договорных отношениях, судебной практике и обучении.

«Наш опыт тестирования также показал, что каждый член команды разработчиков должен обладать рядом кросс-функциональных навыков и компетенций. Во-первых, это глубокие доменные знания – в нашем кейсе речь идет об отраслевых и правовых знаниях в нефтегазовой сфере. Во-вторых, опыт создания и тестирования RAG-пайплайнов на базе LLM. В-третьих, нужен особый аналитический склад ума, позволяющий в процессе проведения R&D модифицировать тестовый датасет для проверки разных качеств и метрик и находить оптимальный вариант. Качественное доменное решение без таких мультиспециалистов не реализуемо», - отметил управляющий директор «ВЫГОН Консалтинг» Григорий Выгон.

С полной версией исследования «Ассистент корпоративного юриста на базе LLM с использованием RAG: перспективы, проблемы и оценка качества на примере нефтегазовых НПА» можно познакомиться по ссылке.