[go: up one dir, main page]

RU2848144C1 - Метод и компьютерная система для прогнозирования активности катализаторов - Google Patents

Метод и компьютерная система для прогнозирования активности катализаторов

Info

Publication number
RU2848144C1
RU2848144C1 RU2024137500A RU2024137500A RU2848144C1 RU 2848144 C1 RU2848144 C1 RU 2848144C1 RU 2024137500 A RU2024137500 A RU 2024137500A RU 2024137500 A RU2024137500 A RU 2024137500A RU 2848144 C1 RU2848144 C1 RU 2848144C1
Authority
RU
Russia
Prior art keywords
subgroup
catalysts
catalytic activity
data set
subgroups
Prior art date
Application number
RU2024137500A
Other languages
English (en)
Inventor
Сергей Владимирович Левченко
Original Assignee
Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Filing date
Publication date
Application filed by Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" filed Critical Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Application granted granted Critical
Publication of RU2848144C1 publication Critical patent/RU2848144C1/ru

Links

Abstract

Изобретение относится к области информационных технологий. Технический результат заключается в повышении точности прогнозирования и поиска наиболее активных катализаторов. Технический результат достигается за счет этапов, на которых: осуществляют выбор набора характеристик на основе доменного знания, связанных с каталитической активностью, при этом для практической ценности подгрупп как прогнозирующих моделей выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность; формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе; рассчитывают значения каталитической активности методами квантовой химии для катализаторов в тренировочном наборе данных; применяют метод обнаружения подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью; рассчитывают характеристики для большого числа материалов-кандидатов, не включенных в тренировочный набор; используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов. 2 ил., 2 табл.

Description

ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к области информационных технологий, в частности, к способу прогнозирования активности катализаторов.
Работы выполнены в рамках реализации постановления Правительства Российской Федерации №220 от 9 апреля 2010 г. и Соглашения №075-10-2022-119 от 30 сентября 2022 г. о предоставлении из федерального бюджета грантов в форме субсидий в соответствии с пунктом 4 статьи 78.1 Бюджетного кодекса Российской Федерации, заключенного между Министерством науки и высшего образования Российской Федерации и Автономной некоммерческой образовательной организацией высшего образования «Сколковский институт науки и технологий» (идентификатор государственного контракта 000000S707521QJX0002).
УРОВЕНЬ ТЕХНИКИ
Из уровня техники известно решение, описывающее подходы к обучению правилам классификации к обнаружению подгрупп. Целью обнаружения подгрупп является поиск правил, описывающих подмножества популяции, которые достаточно велики и статистически необычны (статья «Subgroup Discovery with CN2-SD», Journal of Machine Learning Research 5 (2004) 153-188, https://sci2s.ugr.es/keel/pdf/algorithm/articulo/2004-Lavrac-JMLR.pdf). В данной статье представлен алгоритм обнаружения подгрупп, CN2-SD, разработанный путем модификации частей обучающегося правила классификации CN2: его алгоритма покрытия, эвристики поиска, вероятностной классификации экземпляров и мер оценки.
Недостатком данного решения является то, что в нем используется адаптация стандартного метода обучения правил классификации к задаче поиска особых подгрупп. В результате появляется необходимость в дополнительных параметрах, которые задают соотношение между общностью и точностью полученных правил. Кроме того, свойство локальности подгрупп (независимости от других подгрупп) нарушается в силу глобальности стандартных методов обучения правил классификации.
Кроме того, из уровня техники известен подход обнаружения подгрупп для прогнозирования дефектов (Статья «А study of subgroup discovery approaches for defect prediction», Information and Software Technology Volume 55, Issue 10, October 2013, Pages 1810-1822, https://doi.org/10.1016/j.infsof.2013.05.002). В данной статье описаны два алгоритма обнаружения подгрупп, алгоритм SD и алгоритм CN2-SD, для получения правил, которые идентифицируют модули, подверженные дефектам. Эмпирическая работа выполняется с общедоступными наборами данных из репозитория Promise и объектно-ориентированными метриками из репозитория Eclipse, связанными с прогнозированием дефектов. Алгоритмы обнаружения подгрупп смягчают характеристики наборов данных, которые препятствуют применимости алгоритмов классификации, и, таким образом, устраняют необходимость в методах предварительной обработки.
Недостатком данного известного решения является то, что применяется стандартный метод обнаружения подгрупп, описанный метод не умеет осуществлять перекрестную проверку для улучшения точности предсказаний. Также, метод CN2-SD не показал результаты лучше, чем стандартный метод обнаружения подгрупп.
Из уровня техники также известен источник информации статья «А New Method to Evaluate Subgroup Discovery Algorithms» (Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications (CIARP 2019), https://link.springer.com/chapter/10.1007/978-3-030-33904-3 39). раскрывающий метод оценки и сравнения алгоритмов обнаружения подгрупп. Этот метод начинается с удаления избыточности с использованием новой процедуры, основанной на примерах, охватываемых шаблонами, и статистической избыточности между ними. Затем новые методы подобия и качества используются для сравнения алгоритмов на основе их способности обнаруживать шаблоны и качества добытых шаблонов соответственно. Полученные экспериментальные результаты показывают некоторые интересные результаты, которые остались бы незамеченными при традиционном подходе.
Недостатком данного решения является то, что оно не позволяет отбирать подгруппы на основе перекрестной проверки, хотя и предлагает интересный способ оценки качества подгрупп в дополнение к стандартным функциям качества.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Технической проблемой, на решение которой направлено заявленное решение, является создание компьютерно-реализуемого способа прогнозирования активности катализаторов.
Технический результат заявленного объекта техники заключается в реализации назначения, а также в обеспечении эффективного прогнозирования и поиска наиболее активных катализаторов.
Заявленный технический результат достигается за счет реализации компьютерно-реализуемого способа прогнозирования активности катализаторов, содержащий этапы, на которых:
осуществляют выбор набора характеристик на основе доменного знания, связанных с каталитической активностью, при этом для практической ценности подгрупп как прогнозирующих моделей выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность;
формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе;
рассчитывают значения каталитической активности методами квантовой химии для катализаторов в тренировочном наборе данных;
применяют метод обнаружение подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью;
рассчитывают характеристики для большого числа материалов-кандидатов, не включенных в тренировочный набор;
используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:
Фиг. 1 иллюстрирует схему поиска высокоактивных катализаторов с использованием модифицированного метода майнинга данных «обнаружение подгрупп» (ОП).
Фиг. 2 иллюстрирует общий вид программируемого многофункционального устройства.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения и раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Заявленное техническое решение направлено на решение существующей технической проблемы, в части заявленный способ находит сочетания характеристик катализаторов и диапазон их количественных значений, приводящие к увеличению каталитической активности. Модели, полученные предлагаемым способом, физически интерпретируемы. Например, в представленной работе "Interpretable Data-Driven Descriptors for Establishing the Structure-Activity Relationship of Metal-Organic Frameworks Toward Oxygen Evolution Reaction" (Angewandte Chemie International Edition, https://onlinelibrary.wiley.com/doi/epdf/10.1002/anie.202409449) найдена подгруппа эффективных катализаторов реакции выделения кислорода в процессе электролиза воды для получения водорода. Найденная подгруппа имеет вид (первый потенциал ионизации примеси >7.91 эВ) AND (число электронов на eg орбиталях примеси в объеме катализатора ≥2.44) AND (число недостающих электронов на eg орбиталях никеля в объеме катализатора ≥0.42) AND (-2.90 эВ ≤ центр d-зоны Ni в объеме катализатора ≤-2.13 эВ). Как показано в статье, данное описание предлагает механизм оптимизации катализаторов путем настройки электронной структуры катализатора.
В работе "Artificial-intelligence-driven discovery of catalyst genes with application to C02 activation on semiconductor oxides" (Nature Communications, https://www.nature.com/articles/s41467-022-28042-z) обнаружено определение подгруппы, которое позволяет быстро предсказать, будет ли данная поверхность активировать СО2 для последующей химической конверсии этого парникового газа в полезные продукты, такие как топливо и реагенты для химической промышленности. Подгруппа имеет вид где U - энергия 2р состояния поверхностного кислорода с наименее отрицательной энергией, d2 - расстояние между сайтом адсорбции и вторым ближайшим катионом, qmin, qmax - минимальный и минимальный заряд катионов на поверхности, kurt - эксцесс 2р-зоны поверхностного кислорода. Поскольку все эти свойства - характеристики чистой поверхности, без адсорбированной молекулы СО2, их расчет требует гораздо меньше вычислительных ресурсов, чем вычисление свойств адсорбированной молекулы. Кроме того, модели, найденные новым методом, описанным ниже, позволяют предсказывать каталитическую активность с большей надежностью.
В настоящем техническом решении применяется метод майнинга данных обнаружение подгрупп (ОП) (фиг. 1), что позволяет находить сочетания характеристик катализаторов и диапазоны их значений, которые приводят к увеличению каталитической активности. Так, в описанных выше примерах найдены подгруппы, которые содержат материалы с высокой каталитической активностью, но определяются характеристиками, которые намного проще вычислить, чем саму каталитическую активность.
В методе ОП ключевым параметром является показатель (функция) качества (ФК). ФК дает количественную характеристику «необычности» или «полезности» подгруппы. Чем выше или ниже ФК, тем интереснее подгруппа для конкретного применения. Классическим примером ФК является следующая функция:
где Q - значение ФК, Ns, Na - число данных в подгруппе и во всем наборе данных, means, meana - среднее значение целевого свойства (атрибута) в подгруппе и во всем наборе данных, maxa - максимальное значение целевого свойства во всем наборе данных [Webb GI (2001) Discovering associations with numeric variables. In: Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, pp 383-388]. В подгруппах, максимизирующих такую ФК, среднее значение целевого свойства находится ближе к его максимальному значению во всем наборе данных, при этом подгруппы содержат достаточное количество данных, что увеличивает их статистическую значимость.
Подгруппы определяются сочетаниями условий (селекторами) вида (характеристика 1>а) И (характеристика 2=b) И …, в которых характеристика1, характеристика2, … - некоторые характеристики каждого элемента данных, a, b - численные параметры или идентификаторы классов (категорий, например «хороший катализатор»/«плохой катализатор»). Так, в приведенном выше примере подгруппы эффективных катализаторов электролиза воды, условиями являются следующие неравенства: (первый потенциал ионизации примеси >7.91 эВ), (число электронов на eg орбиталях примеси в объеме катализатора ≥2.44), (число недостающих электронов на eg орбиталях никеля в объеме катализатора ≥0.42), (-2.90 эВ ≤ центр d-зоны Ni в объеме катализатора ≤ -2.13 эВ). Численные параметры в таких неравенствах обычно находятся с помощью машинного обучения, например методом кластеризации k-средних, как описано в "Uncovering structure-property relationships of materials by subgroup discovery" (New Journal of Physics, https://iopscience.iop.org/article/10.1088/1367-2630/aa57c2).
Поиск подгрупп, оптимизирующих ФК, представляет собой так-называемую неполиномиально трудную (NP-hard) задачу, вычислительная сложность которой растет экспоненциально с числом условий, определяющих подгруппы. Для ее решения применяются стохастические (Монте Карло, эволюционный) или детерминированные (метод ветвей и границ -branch and bound) алгоритмы.
Ниже приведен общий алгоритм поиска наиболее активных катализаторов с использованием метода ОП:
1) Осуществляют выбор набора характеристик, которые потенциально связаны с каталитической активностью. Выбор производится пользователем на основе доменного знания. Например, на каталитическую активность переходных металлов, может сильно влиять центр d-зоны. Для каталитической активности оксидов металлов важно также положение центра 2р-зоны кислорода. В целом, свойства атомов, из которых состоит катализатор, такие как потенциал ионизации, энергия сродства к электрону, размер, и т. п., влияют на каталитические свойства. Поэтому эти свойства нужно включить в набор характеристик. Для практической ценности подгрупп как прогнозирующих моделей (т. е. таких, с помощью которых можно предсказать свойства материалов, не входящих в тренировочный набор данных) выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность.
2) Формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе. Тренировочный набор можно формировать путем случайной выборки материалов. Однако более эффективным подходом является активное обучение, при котором тренировочный набор формируется поэтапно: 1) небольшая (20-30 материалов) случайная выборка, 2) тренировка модели, 3) предсказание нескольких новых кандидатов, 4) включение лучших кандидатов в тренировочный набор, 5) повторение этапов с шага 2).
3) Рассчитывают значения каталитической активности методами квантовой химии (например, в рамках теории функционала плотности с приближенными функционалами LDA, РВЕ, SCAN, или другими; в случае наличия ионов переходных металлов в катализаторе, как в Ni-содержащих металлоорганических каркасах, требуется использовать поправки к стандартным приближенным функционалам, например поправку Хаббарда +U) для катализаторов в тренировочном наборе данных.
4) Применяют метод обнаружение подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью.
5) Расчет характеристик для большого числа материалов-кандидатов, не включенных в тренировочный набор.
6) Используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов.
Особенностью применения метода ОП к поиску активных катализаторов состоит в том, что доминирующей целью является повышение активности катализатора, т.е. главным фактором в ФК должно быть увеличение каталитической активности в подгруппе по сравнению со всем набором данных, а не размер подгруппы. Однако при этом статистическая значимость подгруппы может уменьшиться, поскольку материалов с высокой активностью в тренировочном наборе мало, так что лишь небольшая доля материалов из тренировочного набора данных войдет в подгруппу, что может привести к уменьшению предсказательной способности селекторов. Поэтому для надежности предсказаний необходим метод, позволяющий находить подгруппы с максимально высокой предсказательной способностью для заданного диапазона значений целевого свойства (каталитической активности).
Перекрестная проверка (ПП) широко применяется для поиска таких параметров методов машинного обучения (МО) и майнинга данных (МД) (гиперпараметров), которые дают модели машинного обучения с наиболее высокой предсказательной способностью, т.е. с наиболее низкой ошибкой предсказания для данных, не включенных в тренировочный набор данных. Например, в методе N-кратной ПП (https://scikit-learn.Org/1.5/modules/cross_validation.html) обучающий набор данных разбивается на N (обычно) примерно одинаковых частей, затем для каждой из этих N частей модель МО тренируется на наборе данных, из которого данная часть изъята, и вычисляется ошибка предсказания полученной модели. После этого ошибки предсказания, полученные таким путем для всех N частей усредняются. Эта процедура повторяется для различных наборов гиперпараметров, что в итоге позволяет найти такой набор гиперпараметров, который дает минимальную ошибку предсказания. Машинное обучение с этим набором гиперпараметров на полном наборе данных дает окончательную модель машинного обучения с максимальной предсказательной способностью. В методе ОП ФК может рассматриваться как гиперпараметр.
Целью заявленного решения является создание метода повышения надежности предсказаний селекторов подгрупп данных, предназначенных для быстрого прогнозирования таких сочетаний характеристик, при которых достигается оптимизация целевого свойства. Здесь под характеристиками и целевым свойством понимаются любые свойства материалов или процессов, которые можно измерить или рассчитать математическими методами. Под оптимизацией понимается достижение желаемых количественных или качественных значений целевого свойства.
В контексте ОП, ПП может быть использована для отбора такой ФК, с которой оптимизирующие ФК подгруппы имеют наибольшую предсказательную силу, т.е. наименьшее число ошибок в предсказании, имеют ли новые данные, попадающие в подгруппу, желаемые свойства. Например, в формуле (1) набор ФК можно сгенерировать путем введения степени 0<γ<1 для частоты популяции Ns/Na. Чем меньше будет у, тем меньше будет размер оптимальной подгруппы, но тем больше будет отклонение среднего целевого свойства в подгруппе от среднего по всему набору данных. Если интересны подгруппы с наибольшим отклонением, то меньшие значения у дают более интересные подгруппы. Однако для подгрупп меньшего размера предсказательная способность ОП уменьшается. ПП дает возможность найти минимальное значение у, для которого предсказательная способность подгрупп остается на приемлемом уровне.
В заявленном решении предлагается использовать ПП для отбора подгрупп, которые наименее чувствительны к вариациям состава тренировочного набора данных. Ключевое отличие от традиционных подходов к ПП состоит в том, что для нахождения предсказательных подгрупп используется вариация в самих подгруппах, а не в ФК. Для фиксированной формы ФК часто существует множество подгрупп со значениями ФК, близкими к максимальному. Это происходит из-за корреляции между основными характеристиками, которые входят в условия, определяющие подгруппы, а также корреляции между условиями, из которых составляются селекторы. Эту вариацию можно использовать, чтобы отобрать наиболее предсказательные подгруппы. При этом отклонение значений ФК для таких подгрупп от значений ФК для подгрупп, оптимальных для каждого подмножества данных, тестируемого в ПП, может использоваться как критерий предсказательной способности подгруппы. Этот подход можно использовать как независимо, так и наряду с традиционным подходом ПП, чтобы увеличить предсказательную способность ОП.
Другими словами, сами условия, входящие в селекторы подгрупп, можно рассматривать как параметры метода, которые можно оптимизировать с помощью ПП для улучшения предсказательной способности подгрупп. Поскольку число условий может быть велико, число параметров для оптимизации тоже велико, но как раз алгоритмы, используемые для поиска оптимальных подгрупп, подходят для эффективной оптимизации функций с большим числом переменных. Например, используется метод Монте-Карло (Uncovering structure-property relationships of materials by subgroup discovery, New Journal of Physics, https://iopscience.iop.org/article/10.1088/1367-2630/aa57c2), поиск по лучу (https://en.wikipedia.org/wiki/Beam search), метод ветвей и границ (А. Н. Land and A. G. Doig (1960). "An automatic method of solving discrete programming problems". Econometrica. Vol.28, no. 3. pp. 497-520. doi: 10.2307/1910129). Таким образом, задачи поиска оптимальных подгрупп и увеличения их предсказательной способности могут эффективно решаться одновременно. Общая схема алгоритма для поиска таких предсказательных подгрупп следующая:
1. Из тренировочного набора данных создают N тренировочных наборов, следуя какой-либо схеме ПП.
2. Для каждого из тренировочных наборов данных, полученных на предыдущем шаге, найти оптимальное значение ФК с помощью одного из вышеперечисленных алгоритмов.
3. С помощью одного из вышеперечисленных алгоритмов находят подгруппы, которые минимизируют отклонение ФК от оптимальных значений ФК для всех тренировочных наборов ПП одновременно.
Мера отклонения на шаге 3 может быть выбрана по-разному. Например, это может быть средняя разность между значениями ФК для данной подгруппы и оптимальными значениями ФК для наборов тренировочных данных ПП. Однако такой выбор может привести к слишком большим отклонениям для одного или нескольких тренировочных наборов, если оптимальные значения ФК для этих наборов сильно отличаются от остальных наборов. Чтобы этого избежать, можно использовать максимальное по всем наборам относительное отклонение от оптимальных значений ФК. Наиболее предсказательная подгруппа должна минимизировать это максимальное отклонение.
Заявленное решение позволяет осуществить повышение надежности предсказаний селекторов подгрупп данных, предназначенных для прогнозирования таких сочетаний характеристик, при которых достигается максимизация каталитической активности. Такой метод может применяться на любом предприятии, где необходима оптимизация каталитических процессов. При этом найденные селекторы подгрупп будут давать более надежные предсказания для новых данных, не включенных в тренировочный набор.
Ниже приведен подробный алгоритм работы метода.
1) Исследуется класс катализаторов реакции выделения кислорода MaMb-TDC, где Ma, Mb - переходные металлы, TDC - тиофендикарбоновая кислота.
2) Набор данных получен с использованием пакета VASP (S. Grimme, J. Comput. Chem. 27 (2006) 1787-1799). Все расчеты сделаны в рамках теории функционала плотности с приближенным функционалом РВЕ ([J. P. Perdew, K. Burke, М. Ernzerhof, Phys. Rev. Lett.1996, 77, 3865) с поправкой Хаббарда U, реализованной в пакете VASP. Значения U=3,4 [Phys. Rev. В 77, 241201 (2008).], 2,0 [Phys. Chem. Chem. Phys. 13, 978-984 (2010)], 4,0 [Chemistry of Materials 27, №17 (2015): 5856-5867], 3,2 [Nano Energy 68, 104306 (2020)], 4,0 [Acta Mater. 163, 199-207 (2019)] и 3,5 эВ [Surface Science 606, №17-18 (2012): 1422-1425] использовались для Ni, Co, Fe, Mn, Ti и Cr соответственно. Целевое свойство (добавочный потенциал реакции) и характеристики, которые используются для определения подгрупп, рассчитаны для 100 материалов. Оптимальные катализаторы должны иметь как можно меньший добавочный потенциал.
3) Набор данных с дополнительными изменениями для ПП приведен ниже в формате XARF, используемом алгоритмом метода ОП (property - целевое свойство в вольтах):
4) Набор данных модифицирован следующим образом: столбец 1 (property) скопирован в десять новых столбцов (prop1- prop 10). В каждом из скопированных столбцов 10% данных заменены знаком «?», при этом каждая строчка содержит только один знак «?». Эти столбцы используются в программной реализации нового метода ОП с ПП. Данный формат не является единственно возможным для реализации нового метода ОП с ПП, данные ОП могут генерироваться автоматически. Способ, которым генерируются данные для ПП, не является существенной частью предлагаемого изобретения.
5) Характеристики выбирались на основе физических представлений о влиянии свойств активного центра Ма, (первого элемента в первом столбце набора данных), легирующего элемента (второго элемента в первом столбце набора данных) и мостиковых атомов кислорода, соединяющих Ма и Mb в структуре металлоорганического каркаса на добавочный потенциал. Список используемых характеристик приведен в таблице 1:
6) К набору данных применяется новый метод ОП с ПП. Новый метод ОП с ПП, описанный выше, реализован авторами изобретения в модифицированной версии Java программы realkd (http://www.realkd.org/. Была использована следующая функция качества для ПП:
где Ns, Na - число материалов в подгруппе (s) и во всем наборе данных (а), с - параметр, Ns<c - число материалов в подгруппе (s) с добавочным потенциалом ниже с, θ - функция Хевисайда. Данная форма функции качества мотивирована понятием получения информации в статистике: информация максимизируется, когда большая часть подгруппы находится внутри заданного интервала. Это позволяет находить подгруппы, содержащие как можно больше материалов, для которых максимальный добавочный потенциал ниже с. Конкретный выбор целевой функции не является существенной частью данного изобретения.
Полученная подгруппа с максимальным значением ФК для предсказания, имеет ли данный катализатор добавочный потенциал ниже с=0.5 эВ, имеет следующий вид:
Для теста нового метода ОП с ПП приведенный выше набор данных разбивался на две части случайным образом: а) на 90% и 10%, б) на 80% и 20%. После этого для большей части каждого из разбиений а), и б) применялся метод ОП с ПП и обычный метод с ФК, приведенной выше, с параметром с=0.5 и 0.6 для 90%/10% и 80%/20% разбиений, соответственно. Затем полученные подгруппы были применены к 100% данных, и получено число ошибочных предсказаний, и их средний добавочный потенциал. Результаты приведены в таблице 2.
Видно, что даже при очень малом размере подгруппы новый метод ОП с ПП дает в среднем лучшие предсказания, а именно: количество неправильно классифицированных материалов (т.е. попавших в подгруппу, но имеющих добавочный потенциал выше порога) и среднее значение добавочного потенциала в подгруппе меньше, чем в стандартном подходе ОП.
На Фиг. 2 представлен общий вид программируемого многофункционального устройства (1600). На базе устройства (1600) может быть реализовано любое из устройств (110, 120, 130, 140, 210, 230, 240, 260) и иной тип устройства, обеспечивающего компьютерную обработку данных, необходимых для реализации заявленного способа.
В общем случае, вычислительное устройство (1600) содержит объединенные общей шиной информационного обмена (1601) один или несколько процессоров (1602), средства памяти, такие как ОЗУ (1603) и ПЗУ (1604), интерфейсы ввода/вывода (1605), устройства ввода/вывода (1406), и устройство для сетевого взаимодействия с телекоммуникационной сетью передачи данных (1607).
Процессор (1602) - это интегральная схема, исполняющая машинные инструкции (код программ), главная часть аппаратного обеспечения компьютера. Может содержать несколько процессорных ядер в одном корпусе.
ОЗУ (оперативное запоминающее устройство) (1603) - это временное хранилище, в котором содержатся данные и машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных.
ПЗУ (постоянное запоминающее устройство) (1604) - это тип энергонезависимой памяти, используемый в компьютерах и других электронных устройствах. ПЗУ (1604) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD) и пр.
Интерфейс в/в (интерфейс ввода/вывода) (1605) -это «проводник» между пользователем и программой, операционной системой, техническим устройством или способ взаимодействия приложений между собой.
Устройства ввода и вывода (1606) - это периферийное оборудование, предназначенное для ввода и вывода данных или сигналов в компьютер или в другое электронное устройство во время его работы. Применяются различные средства (1606) В/В информации, например, клавиатура, дисплей (монитор), компьютерная мышь, трекбол, тачпад, световое перо, графический планшет, сенсорный экран или тачскрин и т.п.
Средство сетевого взаимодействия (1607) обеспечивает передачу данных устройством (1600) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (1606) может использоваться, но не ограничиваться: Ethernet карта, модем, Bluetooth модуль, Wi-Fi модуль и др.
Несмотря на то, что изобретение описано со ссылкой на раскрываемые варианты воплощения, для специалистов в данной области должно быть очевидно, что конкретные подробно описанные эксперименты приведены лишь в целях иллюстрирования настоящего изобретения, и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения. Должно быть понятно, что возможно осуществление различных модификаций без отступления от сути настоящего изобретения.

Claims (7)

  1. Компьютерно-реализуемый способ прогнозирования активности катализаторов, содержащий этапы, на которых:
  2. осуществляют выбор набора характеристик на основе доменного знания, связанных с каталитической активностью, при этом для практической ценности подгрупп как прогнозирующих моделей выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность;
  3. формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе;
  4. рассчитывают значения каталитической активности методами квантовой химии для катализаторов в тренировочном наборе данных;
  5. применяют метод обнаружения подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью;
  6. рассчитывают характеристики для большого числа материалов-кандидатов, не включенных в тренировочный набор;
  7. используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов.
RU2024137500A 2024-12-16 Метод и компьютерная система для прогнозирования активности катализаторов RU2848144C1 (ru)

Publications (1)

Publication Number Publication Date
RU2848144C1 true RU2848144C1 (ru) 2025-10-16

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220299952A1 (en) * 2018-01-30 2022-09-22 Imubit Israel Ltd. Control system with optimization of neural network predictor
RU2786783C1 (ru) * 2021-12-29 2022-12-26 Публичное акционерное общество "Газпром нефть" Способ, система и машиночитаемый носитель с программным продуктом для прогнозирования изменения активности катализатора в установке гидроочистки дизельного топлива
US20230098789A1 (en) * 2021-08-16 2023-03-30 Chevron Phillips Chemical Company Lp Modulating co-monomer selectivity using non-covalent dispersion interactions in group 4 olefin polymerization catalysts
US20230330652A1 (en) * 2020-06-10 2023-10-19 Chevron Phillips Chemical Company, Lp Machine Learning and Statistical Analysis for Catalyst Structure Prediction and Design
US20240013866A1 (en) * 2021-03-25 2024-01-11 Osmo Labs, Pbc Machine learning for predicting the properties of chemical formulations
US20240202549A1 (en) * 2022-12-16 2024-06-20 Firmenich Sa Method and system for predicting a stability value for a determined fragrance in a determined fragrance base

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220299952A1 (en) * 2018-01-30 2022-09-22 Imubit Israel Ltd. Control system with optimization of neural network predictor
US20230330652A1 (en) * 2020-06-10 2023-10-19 Chevron Phillips Chemical Company, Lp Machine Learning and Statistical Analysis for Catalyst Structure Prediction and Design
US20240013866A1 (en) * 2021-03-25 2024-01-11 Osmo Labs, Pbc Machine learning for predicting the properties of chemical formulations
US20230098789A1 (en) * 2021-08-16 2023-03-30 Chevron Phillips Chemical Company Lp Modulating co-monomer selectivity using non-covalent dispersion interactions in group 4 olefin polymerization catalysts
RU2786783C1 (ru) * 2021-12-29 2022-12-26 Публичное акционерное общество "Газпром нефть" Способ, система и машиночитаемый носитель с программным продуктом для прогнозирования изменения активности катализатора в установке гидроочистки дизельного топлива
US20240202549A1 (en) * 2022-12-16 2024-06-20 Firmenich Sa Method and system for predicting a stability value for a determined fragrance in a determined fragrance base

Similar Documents

Publication Publication Date Title
Swann et al. Representing molecular and materials data for unsupervised machine learning
Noor et al. Deep-m5U: a deep learning-based approach for RNA 5-methyluridine modification prediction using optimized feature integration
Banerjee et al. Read-across-based intelligent learning: development of a global q-RASAR model for the efficient quantitative predictions of skin sensitization potential of diverse organic chemicals
US20210090689A1 (en) Methods for predicting the gibbs free energy of biochemical reactions
Vadaddi et al. Graph to activation energy models easily reach irreducible errors but show limited transferability
Maggiora et al. From qualitative to quantitative analysis of activity and property landscapes
Zhao et al. Revisiting machine learning based test case prioritization for continuous integration
Anstine et al. AIMNet2-rxn: A Machine Learned Potential for Generalized Reaction Modeling on a Millions-of-Pathways Scale
Zeng et al. Improved Population-Based Incremental Learning of Bayesian Networks with partly known structure and parallel computing
Carbone et al. Accurate, uncertainty-aware classification of molecular chemical motifs from multimodal x-ray absorption spectroscopy
RU2848144C1 (ru) Метод и компьютерная система для прогнозирования активности катализаторов
Li et al. Machine learning-driven prediction of nitrate-N adsorption efficiency by Fe-modified biochar: Refined model tuning and identification of crucial features
Rajkó et al. Development of partial least squares regression with discriminant analysis for software bug prediction
Tsanas et al. A simple filter benchmark for feature selection
Liu et al. MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback
Quaye Random Forest For High-Dimensional Data
Wakiru A decision tree-based classification framework for used oil analysis applying random forest feature selection
Dai et al. A pipeline for improved QSAR analysis of peptides: physiochemical property parameter selection via BMSF, near-neighbor sample selection via semivariogram, and weighted SVR regression and prediction
WO2023178118A1 (en) Directed evolution of molecules by iterative experimentation and machine learning
Olanipekun et al. An improved prediction of transparent conductor formation energy using pycaret: An open-source machine learning library
Khajehgili-Mirabadi et al. Enhancing QSAR modeling: a fusion of sequential feature selection and support vector machine
Yan et al. Machine learning-guided identification of critical descriptors of hydration-driven structural transitions in ionic liquids
Luthfi et al. Enhancing Software Defect Prediction: HHO-Based Wrapper Feature Selection With Ensemble Methods
Zhang et al. The impact of feature selection and feature reduction techniques for code smell detection: A comprehensive empirical study
Kar et al. On error measures for validation and uncertainty estimation of predictive QSAR models