В развитие генеративного ИИ в мире вкладываются десятки миллиардов долларов. Сложность и качество больших языковых моделей (БЯМ) растут, хотя пока они плохо справляются с задачами, требующими многоступенчатых рассуждений и математических действий. Знания и функционал лучших зарубежных моделей в сфере ТЭК сегодня ограничены. Но в ближайшем будущем БЯМ научатся решать многоуровневые инженерные задачи, анализировать существующие технологии и создавать новые. Какой эффект получит российская нефтегазовая отрасль от использования генеративного ИИ? Способны ли нейросети стать прикладным инструментом для достижения технологического суверенитета в условиях санкций? Ответ на эти вопросы – в нашем новом исследовании.
Сегодня российские нефтегазовые компании активно используют традиционный ИИ для работы с большими структурированными числовыми данными на всем жизненном цикле продукции: от моделирования геологоразведочных работ и диагностики состояния трубопроводов до создания многокомпонентных рецептур моторных масел. При этом промышленные решения на базе генеративных моделей в отечественном нефтегазе сегодня отсутствуют. Эти технологии пока только «пилотируются» ограниченным кругом российских ВИНКов.
Авторы исследования выделяют несколько классов задач у генеративного ИИ в нефтегазе. К относительно простым можно отнести распознавание текстовых документов, поиск в базе знаний, а также обобщение материала, построение ключевых выводов. Сюда же относится бенчмаркинг, поиск аналогов, распознавание графиков, диаграмм, таблиц, формул, генерация шаблонных отчетов.
В классе более интеллектуальных задач - подбор технологий и анализ существующих трендов, оценка состояния производственного объекта или процесса, генерация рекомендаций по предотвращению поломок оборудования, а также прикладная экспертиза для проведения ремонтов. Так, например, в сегменте upstream искусственный ИИ сможет оптимизировать движение бригад, анализировать успешность бурения и геолого-технических мероприятий (гидроразрыв пласта, соляно-кислотные обработки и др.).
Мультиагентные системы (МАС - разновидность БЯМ, включающая различные модели, каждая из которых хорошо решает свой ограниченный круг задач) смогут реализовывать еще более сложный многоуровневый инженерный функционал - проектирование процессов, оборудования и инфраструктуры, а также создание (инжиниринг) новых продуктов и технологий. Например, в рамках оптимизации системы разработки месторождения такие модели ИИ способны проанализировать данные о геологии и разработке, выбрать точки для бурения, передать их в гидродинамический симулятор на расчет, получить и оценить технико-экономические показатели (NPV, индекс доходности и т.д.). В результате постановщик задачи получит варианты оптимизации актива для принятия дальнейших решений. При этом эксперты, вооруженные МАС на этот процесс потратят на 30% меньше времени, чем команда из людей без участия ИИ.
По оценкам «ВЫГОН Консалтинг» суммарный отраслевой эффект (экономия) от использования генеративного ИИ, включая МАС, может составить 343 млрд руб. в год за счет повышения производительности труда и эффективности производства. Наибольшее влияние (69% от этой суммы) нейросети окажут на upstream (ГРР, разработка и бурение, обустройство и капстроительство, мониторинг и управление добычей).
При тестировании топовых зарубежных БЯМ на предмет поиска и анализа нефтегазовой информации наши эксперты отметили неспособность моделей отвечать на конкретные отраслевые вопросы. Причина в основном заключается в отсутствии полных и актуальных отраслевых данных со страновой спецификой в корпусе (обширный массив данных, использованных для первоначального обучения модели). Коммерческие иностранные БЯМ также строго соблюдают введенный Западом санкционный режим и ограничивают доступ к любой информации, которая может быть использована для технологического развития и импортозамещения.
Для погружения готовых БЯМ в отраслевую тематику эксперты «ВЫГОН Консалтинг» провели эксперимент с использованием метода RAG (Retrieval-Augmented Generation, генерация ответа на основе извлеченных актуальных данных). Это решение было протестировано на одной из реальных отраслевых задач и показало лучшие результаты, чем коммерческие модели без RAG: в ответах были указаны конкретные названия технологий, ограничения «заморозки» корпуса модели были преодолены, а количество «галлюцинаций» (выдуманных ответов) минимизировано. По результатам эксперимента был сделан вывод о том, что БЯМ, усовершенствованную с помощью RAG, можно использовать в роли «интеллектуального ассистента» для решения конкретных отраслевых задач.
Описывая основные барьеры для создания в России продвинутой отраслевой БЯМ, авторы исследования отмечают проблему с GPU (graphics processing unit, графические процессоры). Число доступных для расчетов карт Tesla A100 в России составляет не более 5 тыс. шт. В случае обучения модели на открытых данных возможно воспользоваться услугами дата-центров из третьих стран. Однако, при обучении достаточно крупных моделей (уровня GPT-5) и регулярном выпуске их новых версий целесообразно рассмотреть приобретение GPU. Из-за экспортных ограничений покупка такого большого количества карт сопряжена с рисками нарушения поставок. Карты A100, H100 и H800 возможно найти в розничной продаже в небольшом количестве. В этом году анонсирован выход существенно более мощных GPU и вопрос покупки нескольких десятков тысяч карт последних моделей с помощью схем параллельного импорта остается открытым.
Еще одна фундаментальная проблема, мешающая интенсивному развитию отечественного БЯМ – это большие затраты. Стоимость создания «с нуля» одной мега-модели уровня Claude 3, вышедшей в конце февраля 2024 г. по данным «ВЫГОН Консалтинг» превышает 500 млн долл. (примерно 50 млрд руб.). Такие расходы могут позволить себе только западные Биг Техи или консорциум из нескольких компаний.
Уровень инвестиций в GenAI в нашей стране многократно ниже. По нашим оценкам, российские Биг Техи суммарно вкладывают в разработку генеративного ИИ около 48,3 млрд руб. в год. При таком уровне инвестиций создание мега-модели мирового уровня возможно только в случае консолидации усилий всех наших компаний. А для создания конкурентоспособных моделей в будущем необходимо наращивать вложения до 100 млрд руб./год.
Авторы исследования называют три ключевых фактора, влияющих на стоимость отраслевой БЯМ. Первый – выбор подхода к ее созданию с ответом на вопрос: будет ли использована существующая модель или создана принципиально новая? Второй – это объем и качество датасетов (наборов обработанных данных, необходимых для машинного обучения). Третий - это размер модели (количество ее параметров).
Таким образом, донастройка на отраслевых данных (fine-tuning) иностранной модели с открытыми параметрами (таких как LLaMa, Mistral, Grok, DBRX), которая будет иметь базовое представление об отрасли, обойдется в сумму от 100 тыс до 100 млн руб. Сопоставимыми будут затраты на дообучение российских БЯМ (GigaChat Сбера и YandeхGPT) для получения модели, способной хорошо ориентироваться в узкой отраслевой области, например, в нефтегазовой геологии. Обучение «с нуля» отечественной БЯМ с широкой отраслевой экспертизой может потребовать от 500 млн до 100 млрд, не включая расходы на разработку и исследования (R&D-инженеров).
Эксперты «ВЫГОН Консалтинг» отмечают четыре базовых условия для создания отечественного отраслевого БЯМ в России. Это компетенции как в отрасли, так и ML (machine learning – машинное обучение), вычислительные мощности (GPU), инвестиции, а также объединение усилий Биг Техов, нефтегазовых компаний, экспертных и научных организаций на одной площадке для обмена информацией и разделения финансовой нагрузки. Проектная команда по созданию и донастройке отраслевой БЯМ должна включать не только ML-инженеров, но и отраслевых экспертов, обладающих глубокими знаниями по всем сегментам нефтегазового комплекса.
Консолидация компаний с целью создания отраслевой платформы GenAI позволит сократить расходы на разработку отраслевых прикладных моделей. При этом развитие отраслевых БЯМ должно происходить поэтапно, с постепенным увеличением сложности решаемых задач. К созданию продвинутых мультиагентных решений на базе БЯМ, способных решать сложные отраслевые задачи (проектирование и составление концептуальных планов развития, инжиниринг новых продуктов и технологий) можно приступать только после создания более простой отраслевой БЯМ (поиск аналогов, бенчмаркинг, мониторинг технологических трендов, подготовка шаблонов отчетов) и с учетом опыта создания такой же продвинутой МАС за рубежом.
С полной версией исследования «Возможности использования генеративного ИИ для обеспечения технологического суверенитета российского ТЭК» можно познакомиться по ссылке.
Сегодня российские нефтегазовые компании активно используют традиционный ИИ для работы с большими структурированными числовыми данными на всем жизненном цикле продукции: от моделирования геологоразведочных работ и диагностики состояния трубопроводов до создания многокомпонентных рецептур моторных масел. При этом промышленные решения на базе генеративных моделей в отечественном нефтегазе сегодня отсутствуют. Эти технологии пока только «пилотируются» ограниченным кругом российских ВИНКов.
Авторы исследования выделяют несколько классов задач у генеративного ИИ в нефтегазе. К относительно простым можно отнести распознавание текстовых документов, поиск в базе знаний, а также обобщение материала, построение ключевых выводов. Сюда же относится бенчмаркинг, поиск аналогов, распознавание графиков, диаграмм, таблиц, формул, генерация шаблонных отчетов.
В классе более интеллектуальных задач - подбор технологий и анализ существующих трендов, оценка состояния производственного объекта или процесса, генерация рекомендаций по предотвращению поломок оборудования, а также прикладная экспертиза для проведения ремонтов. Так, например, в сегменте upstream искусственный ИИ сможет оптимизировать движение бригад, анализировать успешность бурения и геолого-технических мероприятий (гидроразрыв пласта, соляно-кислотные обработки и др.).
Мультиагентные системы (МАС - разновидность БЯМ, включающая различные модели, каждая из которых хорошо решает свой ограниченный круг задач) смогут реализовывать еще более сложный многоуровневый инженерный функционал - проектирование процессов, оборудования и инфраструктуры, а также создание (инжиниринг) новых продуктов и технологий. Например, в рамках оптимизации системы разработки месторождения такие модели ИИ способны проанализировать данные о геологии и разработке, выбрать точки для бурения, передать их в гидродинамический симулятор на расчет, получить и оценить технико-экономические показатели (NPV, индекс доходности и т.д.). В результате постановщик задачи получит варианты оптимизации актива для принятия дальнейших решений. При этом эксперты, вооруженные МАС на этот процесс потратят на 30% меньше времени, чем команда из людей без участия ИИ.
По оценкам «ВЫГОН Консалтинг» суммарный отраслевой эффект (экономия) от использования генеративного ИИ, включая МАС, может составить 343 млрд руб. в год за счет повышения производительности труда и эффективности производства. Наибольшее влияние (69% от этой суммы) нейросети окажут на upstream (ГРР, разработка и бурение, обустройство и капстроительство, мониторинг и управление добычей).
При тестировании топовых зарубежных БЯМ на предмет поиска и анализа нефтегазовой информации наши эксперты отметили неспособность моделей отвечать на конкретные отраслевые вопросы. Причина в основном заключается в отсутствии полных и актуальных отраслевых данных со страновой спецификой в корпусе (обширный массив данных, использованных для первоначального обучения модели). Коммерческие иностранные БЯМ также строго соблюдают введенный Западом санкционный режим и ограничивают доступ к любой информации, которая может быть использована для технологического развития и импортозамещения.
Для погружения готовых БЯМ в отраслевую тематику эксперты «ВЫГОН Консалтинг» провели эксперимент с использованием метода RAG (Retrieval-Augmented Generation, генерация ответа на основе извлеченных актуальных данных). Это решение было протестировано на одной из реальных отраслевых задач и показало лучшие результаты, чем коммерческие модели без RAG: в ответах были указаны конкретные названия технологий, ограничения «заморозки» корпуса модели были преодолены, а количество «галлюцинаций» (выдуманных ответов) минимизировано. По результатам эксперимента был сделан вывод о том, что БЯМ, усовершенствованную с помощью RAG, можно использовать в роли «интеллектуального ассистента» для решения конкретных отраслевых задач.
Описывая основные барьеры для создания в России продвинутой отраслевой БЯМ, авторы исследования отмечают проблему с GPU (graphics processing unit, графические процессоры). Число доступных для расчетов карт Tesla A100 в России составляет не более 5 тыс. шт. В случае обучения модели на открытых данных возможно воспользоваться услугами дата-центров из третьих стран. Однако, при обучении достаточно крупных моделей (уровня GPT-5) и регулярном выпуске их новых версий целесообразно рассмотреть приобретение GPU. Из-за экспортных ограничений покупка такого большого количества карт сопряжена с рисками нарушения поставок. Карты A100, H100 и H800 возможно найти в розничной продаже в небольшом количестве. В этом году анонсирован выход существенно более мощных GPU и вопрос покупки нескольких десятков тысяч карт последних моделей с помощью схем параллельного импорта остается открытым.
Еще одна фундаментальная проблема, мешающая интенсивному развитию отечественного БЯМ – это большие затраты. Стоимость создания «с нуля» одной мега-модели уровня Claude 3, вышедшей в конце февраля 2024 г. по данным «ВЫГОН Консалтинг» превышает 500 млн долл. (примерно 50 млрд руб.). Такие расходы могут позволить себе только западные Биг Техи или консорциум из нескольких компаний.
Уровень инвестиций в GenAI в нашей стране многократно ниже. По нашим оценкам, российские Биг Техи суммарно вкладывают в разработку генеративного ИИ около 48,3 млрд руб. в год. При таком уровне инвестиций создание мега-модели мирового уровня возможно только в случае консолидации усилий всех наших компаний. А для создания конкурентоспособных моделей в будущем необходимо наращивать вложения до 100 млрд руб./год.
Авторы исследования называют три ключевых фактора, влияющих на стоимость отраслевой БЯМ. Первый – выбор подхода к ее созданию с ответом на вопрос: будет ли использована существующая модель или создана принципиально новая? Второй – это объем и качество датасетов (наборов обработанных данных, необходимых для машинного обучения). Третий - это размер модели (количество ее параметров).
Таким образом, донастройка на отраслевых данных (fine-tuning) иностранной модели с открытыми параметрами (таких как LLaMa, Mistral, Grok, DBRX), которая будет иметь базовое представление об отрасли, обойдется в сумму от 100 тыс до 100 млн руб. Сопоставимыми будут затраты на дообучение российских БЯМ (GigaChat Сбера и YandeхGPT) для получения модели, способной хорошо ориентироваться в узкой отраслевой области, например, в нефтегазовой геологии. Обучение «с нуля» отечественной БЯМ с широкой отраслевой экспертизой может потребовать от 500 млн до 100 млрд, не включая расходы на разработку и исследования (R&D-инженеров).
Эксперты «ВЫГОН Консалтинг» отмечают четыре базовых условия для создания отечественного отраслевого БЯМ в России. Это компетенции как в отрасли, так и ML (machine learning – машинное обучение), вычислительные мощности (GPU), инвестиции, а также объединение усилий Биг Техов, нефтегазовых компаний, экспертных и научных организаций на одной площадке для обмена информацией и разделения финансовой нагрузки. Проектная команда по созданию и донастройке отраслевой БЯМ должна включать не только ML-инженеров, но и отраслевых экспертов, обладающих глубокими знаниями по всем сегментам нефтегазового комплекса.
Консолидация компаний с целью создания отраслевой платформы GenAI позволит сократить расходы на разработку отраслевых прикладных моделей. При этом развитие отраслевых БЯМ должно происходить поэтапно, с постепенным увеличением сложности решаемых задач. К созданию продвинутых мультиагентных решений на базе БЯМ, способных решать сложные отраслевые задачи (проектирование и составление концептуальных планов развития, инжиниринг новых продуктов и технологий) можно приступать только после создания более простой отраслевой БЯМ (поиск аналогов, бенчмаркинг, мониторинг технологических трендов, подготовка шаблонов отчетов) и с учетом опыта создания такой же продвинутой МАС за рубежом.
С полной версией исследования «Возможности использования генеративного ИИ для обеспечения технологического суверенитета российского ТЭК» можно познакомиться по ссылке.