Пресс-центр

Нефтегазовая вертикаль: "Технологии GenAI как метод повышения эффективности геологоразведки" - статья Айрата Арифуллина

2024-10-24 18:00 Публикации и интервью
Снижение объемов ГРР и сокращение затрат на поиски и разведку УВС за последние четыре года отрицательно влияют на динамику восполнения минерально-сырьевой базы нашей страны. Для своевременного реагирования на эти вызовы важно задуматься о повышении эффективности геологоразведки. Здесь на помощь могут прийти генеративные модели искусственного интеллекта. Они уже сейчас позволяют решать прикладные узконаправленные задачи для открытия новых месторождений углеводородов. А в будущем могут стать полноценным ассистентом геолога для реализации проектов по освоению ресурсного потенциала Сибири и Дальнего Востока.
Объемы ГРР и затраты на них снижаются
В последние годы в России наблюдается снижение эффективности геологоразведочных работ (ГРР). Согласно данным Государственного баланса запасов и Государственного доклада о состоянии и использовании минерально-сырьевых ресурсов РФ за последние 10 лет затраты на ГРР в реальном выражении колеблются в диапазоне 220-340 млрд рублей. Начиная с 2020 года, наблюдается их снижение. Объемы поисково-разведочного бурения начали падать на год раньше и по состоянию на конец 2023 года сократились на 25% (рисунок 1). Прирост извлекаемых запасов углеводородов не показывает существенной положительной динамики: средний размер открываемых месторождений за последнее десятилетие составляет всего 4,2 млн тонн.

При этом, несмотря на уменьшение объемов бурения и снижение средней величины новых запасов, в России сохраняется значительный ресурсный потенциал, особенно в таких слабо изученных регионах, таких как Таймыр, Восточная Сибирь и шельфы северных морей. Они представляют собой перспективные направления для дальнейшей геологоразведки.

Таким образом, современная тенденция снижения затрат на ГРР в сочетании с падающими объемами бурения и ограниченным приростом запасов подчеркивает необходимость повышения эффективности этих работ. Ключевую роль в решении этой задачи могут сыграть новые цифровые технологии и, прежде всего, генеративный искусственный интеллект (ИИ).
Рисунок 1. Динамика затрат на ГРР на нефть и газ (в ценах 2023 г.) и объемы поисково-разведочного бурения на УВС в 2013-2023 гг. Динамика прироста запасов нефти за счет новых м/р и разведки (категории А+В1+С1) за 2013-2023 гг.
Источник: ГБЗ РФ, Роснедра, «ВЫГОН Консалтинг»
Генеративный ИИ может решать прикладные задачи геологоразведки
В последние годы генеративный ИИ, представленный большими языковыми моделями (large language model, LLM) и технологиями генерации ответов с использованием актуальных данных (Retrieval-Augmented Generation, RAG) начал применяться в науке и промышленности, включая нефтегазовую сферу. LLM, обученные на обширных текстовых данных, способны интерпретировать и генерировать текст, что делает их полезными для задач обработки и анализа информации. Технологии RAG расширяют их возможности, обеспечивая доступ к актуальной и релевантной информации, улучшая качество ответов за счет интеграции данных из реальных источников.

Эксперты «ВЫГОН Консалтинг» исследовали потенциал современных технологий генеративного ИИ на примере узкоспециализированной задачи - определения шанса геологического успеха (geological chance of success, gCoS) при разведке месторождений УВС. Для этого было использовано специально разработанное ИИ-решение -«Интеллектуальный ассистент геолога» - включающее модули поиска релевантных научных статей, предобработки исходных данных, извлечения структурированных данных и сравнения (бенчмаркинга) качества ответов фронтирных LLM.

Поставленную задачу определения параметров gCoS нейросеть решала на базе полусотни открытых научных статей по геологии Индии, в пределах которой выделяется 26 нефтегазоносных бассейнов [4]. Для оценки был выбран лицензионный участок (ЛУ), выставленный в рамках Программы лицензирования открытых площадей Индии OALP BID ROUND-IX (январь 2024) – MB-OSHP-2023/1 [5]. Участок расположен в пределах Камбейского залива и с точки зрения нефтегазоносного районирования относится к суббасейну депрессии Сурат бассейна Мумбайского шельфа (Рисунок 2).
Рисунок 2. Расположение выбранного ЛУ MB-OSHP-2023/1 в восточной части Камбейского залива Индии
Источник: Главное управление по углеводородам Индии, «ВЫГОН Консалтинг»
Для расчета gCoS используются независимые относительно друг друга геологические факторы вероятности наличия нефтегазоматеринской породы (НГМП) (Рнм), путей миграции (Рм), пород-коллекторов (Рк), непроницаемой покрышки (Рп) и ловушки УВ (Рл). Формула для расчета gCoS выглядит следующим образом:
Для изучения текущих возможностей и границ применимости нейросетей в оценке gCoS был выбран фактор Рнм. Он определяется на основе геологической информации, полученной по результатам пиролиза НГМП и оценки отражательной способности витринита.

Задача по оценке этого параметра была выполнена в несколько этапов. Первый включал в себя поиск и препроцессинг данных, предусматривающие формирование базы статей, распознавание PDF, предобработку текста и таблиц (рисунок 3).

В рамках второго этапа были разработаны JSON-схемы для геологических справочников, а также с помощью LLM проведено извлечение (экстракция) данных из PDF-документов с последующим их сохранением в базу (рисунок 4). Важно отметить, что корректная экстракция геологической информации является критически важным условием для эффективной оценки gCoS, ошибочный результат может привести к существенным финансовым потерям при выполнении геологоразведочных работ (ГРР).
На завершающих этапах извлеченные данные позволили произвести оценку gCoS и сравнить качество их ответов (бенчмаркинг моделей).
Рисунок 3. Методологическая схема поиска и препроцессинга неструктурированных данных геологических отчетов
Источник: «ВЫГОН Консалтинг»
Рисунок 4. Методологическая схема извлечения данных (extraction)
Источник: «ВЫГОН Консалтинг»
В результате «Интеллектуальный ассистент геолога» определил, что в суббасейне депрессии Сурат ключевыми НГМП являются богатые органическим веществом глинистые сланцы формации Панна (палеоцен-нижний эоцен). Экстрагированные параметры НГМП формации Панна включили в себя более 20 образцов анализа Rock-Eval, отобранных с различных глубин - от 2,3 до 3,7 км. Диапазоны показателей зрелости и качества НГМП с помощью нейросети были оценены следующим образом (рисунок 5):
  • максимальная температура (Tmax) – от 424 до 465 °С;
  • общее содержание органического углерода (TOC) – от 1,36 до 33,25 %;
  • индекс продуктивности (PI) – от 0,03 до 0,31;
  • водородный индекс (HI) – от 14,72 до 243,5 мг УВ/г TOC.
Рисунок 5. Статистика общего содержания органического углерода (ТОС), максимальной температуры (Тmax) – зрелости ОВ и водородного индекса (HI) – типа керогена для отобранных образцов, подходящих для ЛУ MB-OSHP-2023/1.
Источник: «ВЫГОН Консалтинг»
ИИ-решение, разработанное «ВЫГОН Консалтинг» позволило установить, что на данном лицензионном участке ожидаются НГМП богатого и очень богатого классов (связанные с формацией Панна), так как все образцы пород содержат более 1% органического углерода [6].

По степени зрелости большинство образцов, экстрагированных с помощью LLM, находятся на стадиях ранней зрелости и активной нефтегенерации (ПК3-МК3), о чём свидетельствуют показатели Tmax, превышающие 435 °С, и индекс продуктивности, превышающий 0,1 для значительной части образцов [7]. В связи с расположением ЛУ в пределах депрессии Сурат палеоценовые и эоценовые отложения залегают на больших глубинах, что повышает фактор зрелости НГМП.

С точки зрения углеводородного потенциала НГМП формации Панна содержат, преимущественно, кероген III типа (HI от 50 до 200 мг УВ/г TOC), что указывает на перспективу генерации газообразных углеводородов на участке.

Таким образом, в результате анализа данных генеративный ИИ определил, что наличие НГМП на данном ЛУ крайне вероятно. На нем присутствии НГМП с высоким TOC и хорошей зрелостью, генерация УВ либо идет в настоящее время, либо отложения вошли в главную зону нефтегенерации. Параметр Рнм составляет 0,95.
Генеративный ИИ нуждается в экспертном контроле
В процессе исследования возможностей генеративного ИИ для оценки gCoS было выделено три группы ошибок, возникающих при использовании LLM для работы с научными текстовыми данными в нефтегазовой отрасли, геологии и многих других сферах. Их стоит рассмотреть подробнее.

  • Ошибки предобработки данных

Одной из основных проблем является некорректное распознавание таблиц, особенно встроенных в рисунки, что приводит к невозможности извлечения данных из таких таблиц. Дополнительно, модели могут путать колонки в таблицах и извлекать данные из соседних колонок, что влечет неверную интерпретацию параметров. Эти проблемы указывают на необходимость доработки алгоритмов предобработки и более тщательной настройки моделей для повышения точности и надежности извлечения геологической информации.

  • Онтологические ошибки экстракции

Онтологические ошибки экстракции данных при использовании генеративного ИИ связаны с неправильной интерпретацией и привязкой данных к соответствующим геологическим объектам, бассейнам, формациям и образцам. Одной из ключевых проблем является то, что LLM иногда не может корректно идентифицировать и связать между собой объекты, разбросанные по тексту и различным таблицам. Например, в сложных или неявных связях между данными модель может неправильно определить, какой бассейн или формация относится к конкретному образцу, что приводит к ошибкам в дальнейшей интерпретации и расчетах. Кроме того, встречаются случаи, когда одно и то же название используется для разных объектов в различных источниках, что также приводит к путанице и некорректной привязке данных.

При изучении научных статей по геологии Индии было выявлено несоответствие в названиях крупных геологических формаций. Например, формация Касарагод упоминается под разными названиями: Kasaragod, Kasargod, Kasargad. В Индии такие различия обусловлены внутренней спецификой. В российской литературе можно ожидать схожие проблемы, поскольку часто используются различные наименования для одних и тех же свит, а также сокращения, профессиональный сленг и аббревиатуры. Например, баженовскую свиту могут сокращать до термина «бажен», покурская свита часто обозначается индексом «ПК», который в нефтегазовой геологии может означать, например, протокатагенез.

  • Технические ошибки экстракции

Основными проблемами являются отклонение от заданного формата выходных данных и бесконечная генерация "мусорных" токенов. Эти технические ошибки существенно снижают качество и надежность извлекаемой информации, требуя дополнительной доработки алгоритмов и улучшения моделей для обеспечения корректного и последовательного извлечения данных.

Кейс использования LLM для определения параметров gCoS демонстрирует, что генеративный ИИ уже сейчас можно применять для решения прикладных отраслевых задач. Однако наше исследование показало нехватку знаний нейросетей в области нефтегазовой геологии и разведки. Это, вместе с рядом технических проблем, влияющих на качество ответов нейросети, говорит о необходимости обязательного внешнего контроля за работой LLM. Причем он должен осуществляться силами экспертов, обладающих глубокими знаниями и компетенциями по указанным темам.
Лучший результат – у закрытых иностранных LLM
Для оценки качества извлечения данных был размечен тестовый датасет для 50 исследовательских статей, содержащих данные для 830 образцов. Результаты бенчмаркинга (рисунок 6) показали, что наилучший результат в извлечении данных с полным соответствием всех параметров и связей геологических образцов показывает закрытая модель Claude 3.5 Sonnet с результатом 68%. На шесть процентных пунктов от нее отстает самая популярная в мире модель GPT 4o. На третьем месте с 60% еще одна закрытая модель - Gemini 1.5 Pro. Результат опенсорсных моделей чуть ниже: Llama 3.1 405В - 52%, Mistral Large 2 - 47%, Qwen2 72B - 45%, Llama 3.1 70B - 44%.
Отечественные YandexGPT и GigaChat принимали участие в тестировании, но в итоговый бенчмаркинг не попали. Им не удалось извлечь неструктурированные геологические данные в CSV формат в соответствии с заданной онтологической инструкцией. Кроме того, из-за небольшого размера контекстного окна и ограничений на количество генерируемых токенов процедура извлечения усложнялась и теряла в качестве.
Рисунок 6. Бенчмаркинг корректности экстракции данных различными БЯМ по отдельным группам: значения параметров по образцам, названия бассейнов, формаций и общая корректность извлечения, %
Источник: «ВЫГОН Консалтинг»

* Корректное извлечение значений 4х параметров (TOC, Tmax, HI, Ro) образца

** Корректное извлечение значений 4х параметров образца и связанного с образцом названия бассейна или формации соответственно

*** Корректное извлечение значений 4х параметров образца, связанных с ним названий бассейна и формации

Геологоразведке нужен ИИ-помощник в области структуризации данных
Современные модели генеративного ИИ становятся эффективным и масштабируемым инструментом для извлечения данных из геологических отчетов, учебников, проектно-технической документации и т.д. Для нефтегазовой геологии особенно важна задача структуризации научной и производственной информации, которая после преобразования может стать ценным активом компаний.

Наиболее очевидным и эффективным применением генеративного ИИ на данный момент является формирование баз данных на основе LLM-экстракции геологических, геофизических, петрофизических параметров с привязкой к стратиграфии, месторождениям, тектонике и нефтегазовому районированию. Базы данных, созданные с помощью LLM смогут решать следующие задачи:
  • упрощение доступа к числовым значениям геологических параметров из различных источников;
  • возможность быстрого подбора аналогов (для оценки запасов и ресурсов);
  • ранжирование перспективных участков за счет оценки gCoS (при наличии встроенных алгоритмов оценки параметров gCoS).
В производственные процессы нефтегазовой геологии также могут быть интегрированы вопросно-ответные системы по документации компаний, регулирующих органов, университетов и т.д. Они будут способствовать:
  • упрощению доступа к неструктурированной информации;
  • повышению эффективности работы специалистов отрасли (геологов, геофизиков, петрофизиков, разработчиков и т.д.);
  • улучшению качества принимаемых решений за счет быстрого получения релевантной информации.
Генеративный ИИ может оттянуть на себя часть таких рутинных задач ГРР, как составление текстовых отчетов, пояснительных записок, паспортов структур и т.д. Для выполнения этих трудоемких функций отлично подходит Генератор геологической документации на базе LLM. Модели могут быть дообучены на существующих отчетах для создания новых, соответствующих актуальным стандартам и требованиям.
Пример использования LLM в «Интеллектуальном ассистенте геолога», специально разработанном «ВЫГОН Консалтинг» для реализации узконаправленных задач геологоразведки показывает, что подобные решения для отрасли можно и необходимо развивать уже сейчас. Генеративные модели ИИ под экспертным контролем способны поднять работу с геологической информацией на новый технологический уровень, повысить эффективность ГРР, открыть новые подходы к анализу сложных данных, а также способствовать обеспечению технологического суверенитета России в условиях санкций.
Автор - консультант "ВЫГОН Консалтинг" Айрат Арифуллин