[go: up one dir, main page]

RU2848144C1 - Method and computer system for predicting catalyst activity - Google Patents

Method and computer system for predicting catalyst activity

Info

Publication number
RU2848144C1
RU2848144C1 RU2024137500A RU2024137500A RU2848144C1 RU 2848144 C1 RU2848144 C1 RU 2848144C1 RU 2024137500 A RU2024137500 A RU 2024137500A RU 2024137500 A RU2024137500 A RU 2024137500A RU 2848144 C1 RU2848144 C1 RU 2848144C1
Authority
RU
Russia
Prior art keywords
subgroup
catalysts
catalytic activity
data set
subgroups
Prior art date
Application number
RU2024137500A
Other languages
Russian (ru)
Inventor
Сергей Владимирович Левченко
Original Assignee
Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Filing date
Publication date
Application filed by Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" filed Critical Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий"
Application granted granted Critical
Publication of RU2848144C1 publication Critical patent/RU2848144C1/en

Links

Abstract

FIELD: information technology.
SUBSTANCE: stages at which: a set of characteristics related to catalytic activity is selected based on domain knowledge, whereby, for the practical value of subgroups as predictive models, the selected characteristic values must be easier to determine for catalysts not included in the training data set than catalytic activity; a training data set is formed and characteristic values are calculated using quantum chemistry methods for catalysts in this set; calculate catalytic activity values using quantum chemistry methods for catalysts in the training data set; apply a subgroup detection method (DM) with built-in cross-validation to search for subgroup selectors that contain and predict catalysts with high catalytic activity; calculate characteristics for a large number of candidate materials not included in the training set; use the found subgroup selectors to predict and search for the most active catalysts.
EFFECT: improved accuracy of prediction and search for the most active catalysts.
1 cl, 2 dwg, 2 tbl

Description

ОБЛАСТЬ ТЕХНИКИAREA OF TECHNOLOGY

Настоящее техническое решение относится к области информационных технологий, в частности, к способу прогнозирования активности катализаторов.This technical solution relates to the field of information technology, in particular to a method for predicting the activity of catalysts.

Работы выполнены в рамках реализации постановления Правительства Российской Федерации №220 от 9 апреля 2010 г. и Соглашения №075-10-2022-119 от 30 сентября 2022 г. о предоставлении из федерального бюджета грантов в форме субсидий в соответствии с пунктом 4 статьи 78.1 Бюджетного кодекса Российской Федерации, заключенного между Министерством науки и высшего образования Российской Федерации и Автономной некоммерческой образовательной организацией высшего образования «Сколковский институт науки и технологий» (идентификатор государственного контракта 000000S707521QJX0002).The work was carried out within the framework of the implementation of the Decree of the Government of the Russian Federation No. 220 of April 9, 2010 and Agreement No. 075-10-2022-119 of September 30, 2022 on the provision of grants from the federal budget in the form of subsidies in accordance with paragraph 4 of Article 78.1 of the Budget Code of the Russian Federation, concluded between the Ministry of Science and Higher Education of the Russian Federation and the Autonomous Non-Commercial Educational Organization of Higher Education "Skolkovo Institute of Science and Technology" (government contract identifier 000000S707521QJX0002).

УРОВЕНЬ ТЕХНИКИLEVEL OF TECHNOLOGY

Из уровня техники известно решение, описывающее подходы к обучению правилам классификации к обнаружению подгрупп. Целью обнаружения подгрупп является поиск правил, описывающих подмножества популяции, которые достаточно велики и статистически необычны (статья «Subgroup Discovery with CN2-SD», Journal of Machine Learning Research 5 (2004) 153-188, https://sci2s.ugr.es/keel/pdf/algorithm/articulo/2004-Lavrac-JMLR.pdf). В данной статье представлен алгоритм обнаружения подгрупп, CN2-SD, разработанный путем модификации частей обучающегося правила классификации CN2: его алгоритма покрытия, эвристики поиска, вероятностной классификации экземпляров и мер оценки.A prior art solution describes approaches to learning classification rules for subgroup detection. The goal of subgroup detection is to find rules that describe population subsets that are sufficiently large and statistically unusual (article "Subgroup Discovery with CN2-SD", Journal of Machine Learning Research 5 (2004) 153-188, https://sci2s.ugr.es/keel/pdf/algorithm/articulo/2004-Lavrac-JMLR.pdf). This article presents a subgroup detection algorithm, CN2-SD, developed by modifying parts of the CN2 classification rule learner: its coverage algorithm, search heuristics, probabilistic classification of instances, and evaluation measures.

Недостатком данного решения является то, что в нем используется адаптация стандартного метода обучения правил классификации к задаче поиска особых подгрупп. В результате появляется необходимость в дополнительных параметрах, которые задают соотношение между общностью и точностью полученных правил. Кроме того, свойство локальности подгрупп (независимости от других подгрупп) нарушается в силу глобальности стандартных методов обучения правил классификации.The drawback of this solution is that it adapts the standard classification rule learning method to the problem of finding special subgroups. This necessitates additional parameters that define the tradeoff between the generality and accuracy of the resulting rules. Furthermore, the property of subgroup locality (independence from other subgroups) is violated due to the global nature of standard classification rule learning methods.

Кроме того, из уровня техники известен подход обнаружения подгрупп для прогнозирования дефектов (Статья «А study of subgroup discovery approaches for defect prediction», Information and Software Technology Volume 55, Issue 10, October 2013, Pages 1810-1822, https://doi.org/10.1016/j.infsof.2013.05.002). В данной статье описаны два алгоритма обнаружения подгрупп, алгоритм SD и алгоритм CN2-SD, для получения правил, которые идентифицируют модули, подверженные дефектам. Эмпирическая работа выполняется с общедоступными наборами данных из репозитория Promise и объектно-ориентированными метриками из репозитория Eclipse, связанными с прогнозированием дефектов. Алгоритмы обнаружения подгрупп смягчают характеристики наборов данных, которые препятствуют применимости алгоритмов классификации, и, таким образом, устраняют необходимость в методах предварительной обработки.In addition, a subgroup discovery approach for defect prediction is known in the prior art (Article “A study of subgroup discovery approaches for defect prediction”, Information and Software Technology Volume 55, Issue 10, October 2013, Pages 1810–1822, https://doi.org/10.1016/j.infsof.2013.05.002). This paper describes two subgroup discovery algorithms, the SD algorithm and the CN2-SD algorithm, for obtaining rules that identify defect-prone modules. The empirical work is performed with publicly available datasets from the Promise repository and object-oriented metrics from the Eclipse repository related to defect prediction. Subgroup discovery algorithms mitigate dataset characteristics that hinder the applicability of classification algorithms and thus eliminate the need for preprocessing methods.

Недостатком данного известного решения является то, что применяется стандартный метод обнаружения подгрупп, описанный метод не умеет осуществлять перекрестную проверку для улучшения точности предсказаний. Также, метод CN2-SD не показал результаты лучше, чем стандартный метод обнаружения подгрупп.A drawback of this well-known solution is that it uses a standard subgroup detection method, and it lacks cross-validation to improve prediction accuracy. Furthermore, the CN2-SD method did not perform better than the standard subgroup detection method.

Из уровня техники также известен источник информации статья «А New Method to Evaluate Subgroup Discovery Algorithms» (Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications (CIARP 2019), https://link.springer.com/chapter/10.1007/978-3-030-33904-3 39). раскрывающий метод оценки и сравнения алгоритмов обнаружения подгрупп. Этот метод начинается с удаления избыточности с использованием новой процедуры, основанной на примерах, охватываемых шаблонами, и статистической избыточности между ними. Затем новые методы подобия и качества используются для сравнения алгоритмов на основе их способности обнаруживать шаблоны и качества добытых шаблонов соответственно. Полученные экспериментальные результаты показывают некоторые интересные результаты, которые остались бы незамеченными при традиционном подходе.The prior art also includes the article "A New Method to Evaluate Subgroup Discovery Algorithms" (Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications (CIARP 2019), https://link.springer.com/chapter/10.1007/978-3-030-33904-3 39). This article discloses a method for evaluating and comparing subgroup detection algorithms. This method begins with redundancy removal using a novel procedure based on the examples covered by the patterns and the statistical redundancy between them. Then, novel similarity and quality methods are used to compare the algorithms based on their ability to detect patterns and the quality of the mined patterns, respectively. The experimental results obtained reveal some interesting findings that would have gone unnoticed using the traditional approach.

Недостатком данного решения является то, что оно не позволяет отбирать подгруппы на основе перекрестной проверки, хотя и предлагает интересный способ оценки качества подгрупп в дополнение к стандартным функциям качества.The disadvantage of this solution is that it does not allow subgroup selection based on cross-validation, although it does offer an interesting way to assess the quality of subgroups in addition to standard quality functions.

СУЩНОСТЬ ИЗОБРЕТЕНИЯESSENCE OF THE INVENTION

Технической проблемой, на решение которой направлено заявленное решение, является создание компьютерно-реализуемого способа прогнозирования активности катализаторов.The technical problem that the proposed solution aims to solve is the creation of a computer-implemented method for predicting the activity of catalysts.

Технический результат заявленного объекта техники заключается в реализации назначения, а также в обеспечении эффективного прогнозирования и поиска наиболее активных катализаторов.The technical result of the claimed technical object consists in the implementation of the purpose, as well as in ensuring effective forecasting and search for the most active catalysts.

Заявленный технический результат достигается за счет реализации компьютерно-реализуемого способа прогнозирования активности катализаторов, содержащий этапы, на которых:The claimed technical result is achieved through the implementation of a computer-implemented method for predicting the activity of catalysts, comprising the following stages:

осуществляют выбор набора характеристик на основе доменного знания, связанных с каталитической активностью, при этом для практической ценности подгрупп как прогнозирующих моделей выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность;select a set of characteristics based on domain knowledge related to catalytic activity, whereby for the subsets to be of practical value as predictive models, the selected characteristic values should be more easily determinable for catalysts not included in the training data set than catalytic activity;

формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе;a training data set is formed and the characteristic values are calculated using quantum chemistry methods for the catalysts in this set;

рассчитывают значения каталитической активности методами квантовой химии для катализаторов в тренировочном наборе данных;calculate catalytic activity values using quantum chemistry methods for catalysts in the training data set;

применяют метод обнаружение подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью;The subgroup detection (SD) method with built-in cross-validation is used to find subgroup selectors that contain and predict catalysts with high catalytic activity;

рассчитывают характеристики для большого числа материалов-кандидатов, не включенных в тренировочный набор;calculate characteristics for a large number of candidate materials not included in the training set;

используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов.use the found subgroup selectors to predict and search for the most active catalysts.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:The invention will be further described in accordance with the accompanying drawings, which are provided to illustrate the invention and in no way limit its scope. The following drawings are attached to the application:

Фиг. 1 иллюстрирует схему поиска высокоактивных катализаторов с использованием модифицированного метода майнинга данных «обнаружение подгрупп» (ОП).Fig. 1 illustrates a scheme for searching for highly active catalysts using a modified data mining method called “subgroup detection” (SD).

Фиг. 2 иллюстрирует общий вид программируемого многофункционального устройства.Fig. 2 illustrates the general appearance of a programmable multifunctional device.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения и раскрывают предпочтительные примеры реализации технического решения и не должны трактоваться как ограничивающие иные, частные примеры его воплощения, не выходящие за пределы испрашиваемой правовой охраны, которые являются очевидными для специалистов соответствующей области техники. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять понимание особенностей настоящего изобретения.The following detailed description of the invention provides numerous implementation details intended to provide a clear understanding of the present invention. These details disclose preferred embodiments of the technical solution and should not be construed as limiting other, specific embodiments within the scope of the claimed legal protection that are obvious to those skilled in the art. However, it will be obvious to those skilled in the art how the present invention can be used, both with and without these implementation details. In other instances, well-known methods, procedures, and components have not been described in detail so as not to obscure the features of the present invention.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.Furthermore, it will be clear from the foregoing description that the invention is not limited to the embodiment described. Numerous possible modifications, changes, variations, and substitutions, while preserving the spirit and form of the present invention, will be apparent to those skilled in the art.

Заявленное техническое решение направлено на решение существующей технической проблемы, в части заявленный способ находит сочетания характеристик катализаторов и диапазон их количественных значений, приводящие к увеличению каталитической активности. Модели, полученные предлагаемым способом, физически интерпретируемы. Например, в представленной работе "Interpretable Data-Driven Descriptors for Establishing the Structure-Activity Relationship of Metal-Organic Frameworks Toward Oxygen Evolution Reaction" (Angewandte Chemie International Edition, https://onlinelibrary.wiley.com/doi/epdf/10.1002/anie.202409449) найдена подгруппа эффективных катализаторов реакции выделения кислорода в процессе электролиза воды для получения водорода. Найденная подгруппа имеет вид (первый потенциал ионизации примеси >7.91 эВ) AND (число электронов на eg орбиталях примеси в объеме катализатора ≥2.44) AND (число недостающих электронов на eg орбиталях никеля в объеме катализатора ≥0.42) AND (-2.90 эВ ≤ центр d-зоны Ni в объеме катализатора ≤-2.13 эВ). Как показано в статье, данное описание предлагает механизм оптимизации катализаторов путем настройки электронной структуры катализатора.The claimed technical solution addresses an existing technical problem. In particular, the claimed method finds combinations of catalyst characteristics and a range of their quantitative values that lead to increased catalytic activity. The models obtained by the proposed method are physically interpretable. For example, in the presented paper "Interpretable Data-Driven Descriptors for Establishing the Structure-Activity Relationship of Metal-Organic Frameworks Toward Oxygen Evolution Reaction" (Angewandte Chemie International Edition, https://onlinelibrary.wiley.com/doi/epdf/10.1002/anie.202409449), a subgroup of effective catalysts for the oxygen evolution reaction during water electrolysis to produce hydrogen was identified. The found subgroup has the form (first ionization potential of impurity >7.91 eV) AND (number of electrons in e g orbitals of impurity in the catalyst volume ≥2.44) AND (number of missing electrons in e g orbitals of nickel in the catalyst volume ≥0.42) AND (-2.90 eV ≤ center of d-band of Ni in the catalyst volume ≤-2.13 eV). As shown in the article, this description suggests a mechanism for catalyst optimization by tuning the electronic structure of the catalyst.

В работе "Artificial-intelligence-driven discovery of catalyst genes with application to C02 activation on semiconductor oxides" (Nature Communications, https://www.nature.com/articles/s41467-022-28042-z) обнаружено определение подгруппы, которое позволяет быстро предсказать, будет ли данная поверхность активировать СО2 для последующей химической конверсии этого парникового газа в полезные продукты, такие как топливо и реагенты для химической промышленности. Подгруппа имеет вид где U - энергия 2р состояния поверхностного кислорода с наименее отрицательной энергией, d2 - расстояние между сайтом адсорбции и вторым ближайшим катионом, qmin, qmax - минимальный и минимальный заряд катионов на поверхности, kurt - эксцесс 2р-зоны поверхностного кислорода. Поскольку все эти свойства - характеристики чистой поверхности, без адсорбированной молекулы СО2, их расчет требует гораздо меньше вычислительных ресурсов, чем вычисление свойств адсорбированной молекулы. Кроме того, модели, найденные новым методом, описанным ниже, позволяют предсказывать каталитическую активность с большей надежностью.The paper "Artificial-intelligence-driven discovery of catalyst genes with application to CO2 activation on semiconductor oxides" (Nature Communications, https://www.nature.com/articles/s41467-022-28042-z) identified a subset that allows rapid prediction of whether a given surface will activate CO2 for subsequent chemical conversion of this greenhouse gas into useful products such as fuels and reagents for the chemical industry. The subset has the form where U is the energy of the 2p state of surface oxygen with the least negative energy, d2 is the distance between the adsorption site and the second-nearest cation, qmin and qmax are the minimum and minimum charges of cations on the surface, and kurt is the excess of the 2p band of surface oxygen. Since all these properties are characteristics of a clean surface, without an adsorbed CO2 molecule, their calculation requires far fewer computational resources than calculating the properties of an adsorbed molecule. Furthermore, the models found by the new method described below allow for more reliable predictions of catalytic activity.

В настоящем техническом решении применяется метод майнинга данных обнаружение подгрупп (ОП) (фиг. 1), что позволяет находить сочетания характеристик катализаторов и диапазоны их значений, которые приводят к увеличению каталитической активности. Так, в описанных выше примерах найдены подгруппы, которые содержат материалы с высокой каталитической активностью, но определяются характеристиками, которые намного проще вычислить, чем саму каталитическую активность.This technical solution utilizes a data mining method called subgroup detection (SD) (Fig. 1), which enables the identification of combinations of catalyst characteristics and ranges of their values that lead to increased catalytic activity. For example, in the examples described above, subgroups were identified that contain materials with high catalytic activity, but are defined by characteristics that are much easier to calculate than the catalytic activity itself.

В методе ОП ключевым параметром является показатель (функция) качества (ФК). ФК дает количественную характеристику «необычности» или «полезности» подгруппы. Чем выше или ниже ФК, тем интереснее подгруппа для конкретного применения. Классическим примером ФК является следующая функция:In the OP method, the key parameter is the quality factor (QF). The QF quantifies the "uniqueness" or "usefulness" of a subgroup. The higher or lower the QF, the more interesting the subgroup is for a specific application. A classic example of a QF is the following function:

где Q - значение ФК, Ns, Na - число данных в подгруппе и во всем наборе данных, means, meana - среднее значение целевого свойства (атрибута) в подгруппе и во всем наборе данных, maxa - максимальное значение целевого свойства во всем наборе данных [Webb GI (2001) Discovering associations with numeric variables. In: Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, pp 383-388]. В подгруппах, максимизирующих такую ФК, среднее значение целевого свойства находится ближе к его максимальному значению во всем наборе данных, при этом подгруппы содержат достаточное количество данных, что увеличивает их статистическую значимость.where Q is the value of the functional complex, N s , N a are the number of data in the subgroup and in the entire data set, mean s , mean a are the average value of the target property (attribute) in the subgroup and in the entire data set, max a is the maximum value of the target property in the entire data set [Webb GI (2001) Discovering associations with numeric variables. In: Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, pp 383–388]. In subgroups that maximize such a functional complex, the average value of the target property is closer to its maximum value in the entire data set, and the subgroups contain a sufficient amount of data, which increases their statistical significance.

Подгруппы определяются сочетаниями условий (селекторами) вида (характеристика 1>а) И (характеристика 2=b) И …, в которых характеристика1, характеристика2, … - некоторые характеристики каждого элемента данных, a, b - численные параметры или идентификаторы классов (категорий, например «хороший катализатор»/«плохой катализатор»). Так, в приведенном выше примере подгруппы эффективных катализаторов электролиза воды, условиями являются следующие неравенства: (первый потенциал ионизации примеси >7.91 эВ), (число электронов на eg орбиталях примеси в объеме катализатора ≥2.44), (число недостающих электронов на eg орбиталях никеля в объеме катализатора ≥0.42), (-2.90 эВ ≤ центр d-зоны Ni в объеме катализатора ≤ -2.13 эВ). Численные параметры в таких неравенствах обычно находятся с помощью машинного обучения, например методом кластеризации k-средних, как описано в "Uncovering structure-property relationships of materials by subgroup discovery" (New Journal of Physics, https://iopscience.iop.org/article/10.1088/1367-2630/aa57c2).Subgroups are defined by combinations of conditions (selectors) of the form (characteristic 1>a) AND (characteristic 2=b) AND …, where characteristic1, characteristic2, … are some characteristics of each data element, a, b are numerical parameters or class identifiers (categories, for example, "good catalyst"/"bad catalyst"). Thus, in the above example of a subgroup of effective water electrolysis catalysts, the conditions are the following inequalities: (first ionization potential of impurity >7.91 eV), (number of electrons in e g orbitals of impurity in catalyst volume ≥2.44), (number of missing electrons in e g orbitals of nickel in catalyst volume ≥0.42), (-2.90 eV ≤ center of d-band of Ni in catalyst volume ≤ -2.13 eV). The numerical parameters in such inequalities are typically found using machine learning, such as k-means clustering, as described in "Uncovering structure-property relationships of materials by subgroup discovery" (New Journal of Physics, https://iopscience.iop.org/article/10.1088/1367-2630/aa57c2).

Поиск подгрупп, оптимизирующих ФК, представляет собой так-называемую неполиномиально трудную (NP-hard) задачу, вычислительная сложность которой растет экспоненциально с числом условий, определяющих подгруппы. Для ее решения применяются стохастические (Монте Карло, эволюционный) или детерминированные (метод ветвей и границ -branch and bound) алгоритмы.Finding subgroups that optimize a functional complex is a so-called non-polynomially difficult (NP-hard) problem, the computational complexity of which grows exponentially with the number of conditions defining the subgroups. Stochastic (Monte Carlo, evolutionary) or deterministic (branch-and-bound) algorithms are used to solve it.

Ниже приведен общий алгоритм поиска наиболее активных катализаторов с использованием метода ОП:Below is a general algorithm for searching for the most active catalysts using the OP method:

1) Осуществляют выбор набора характеристик, которые потенциально связаны с каталитической активностью. Выбор производится пользователем на основе доменного знания. Например, на каталитическую активность переходных металлов, может сильно влиять центр d-зоны. Для каталитической активности оксидов металлов важно также положение центра 2р-зоны кислорода. В целом, свойства атомов, из которых состоит катализатор, такие как потенциал ионизации, энергия сродства к электрону, размер, и т. п., влияют на каталитические свойства. Поэтому эти свойства нужно включить в набор характеристик. Для практической ценности подгрупп как прогнозирующих моделей (т. е. таких, с помощью которых можно предсказать свойства материалов, не входящих в тренировочный набор данных) выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность.1) Select a set of characteristics that are potentially related to catalytic activity. The user makes the selection based on domain knowledge. For example, the catalytic activity of transition metals can be significantly affected by the center of the d-band. For the catalytic activity of metal oxides, the position of the center of the 2p-band of oxygen is also important. In general, the properties of the atoms that make up the catalyst, such as ionization potential, electron affinity, size, etc., influence catalytic properties. Therefore, these properties must be included in the set of characteristics. For the subsets to be useful as predictive models (i.e., ones that can predict the properties of materials not included in the training dataset), the selected characteristic values should be more easily determinable for catalysts not included in the training dataset than the catalytic activity.

2) Формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе. Тренировочный набор можно формировать путем случайной выборки материалов. Однако более эффективным подходом является активное обучение, при котором тренировочный набор формируется поэтапно: 1) небольшая (20-30 материалов) случайная выборка, 2) тренировка модели, 3) предсказание нескольких новых кандидатов, 4) включение лучших кандидатов в тренировочный набор, 5) повторение этапов с шага 2).2) A training dataset is generated and the characteristic values for the catalysts in this dataset are calculated using quantum chemistry methods. The training set can be generated by randomly selecting materials. However, a more effective approach is active learning, in which the training set is generated in stages: 1) a small (20-30 materials) random sample, 2) training the model, 3) predicting several new candidates, 4) including the best candidates in the training set, 5) repeating the steps from step 2.

3) Рассчитывают значения каталитической активности методами квантовой химии (например, в рамках теории функционала плотности с приближенными функционалами LDA, РВЕ, SCAN, или другими; в случае наличия ионов переходных металлов в катализаторе, как в Ni-содержащих металлоорганических каркасах, требуется использовать поправки к стандартным приближенным функционалам, например поправку Хаббарда +U) для катализаторов в тренировочном наборе данных.3) Calculate the catalytic activity values using quantum chemistry methods (e.g., within the framework of density functional theory with approximate functionals LDA, PBE, SCAN, or others; in the case of the presence of transition metal ions in the catalyst, as in Ni-containing metal-organic frameworks, it is necessary to use corrections to the standard approximate functionals, for example, the Hubbard correction +U) for the catalysts in the training data set.

4) Применяют метод обнаружение подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью.4) The subgroup detection (SD) method with built-in cross-validation is used to search for subgroup selectors containing and predicting catalysts with high catalytic activity.

5) Расчет характеристик для большого числа материалов-кандидатов, не включенных в тренировочный набор.5) Calculation of characteristics for a large number of candidate materials not included in the training set.

6) Используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов.6) Use the found subgroup selectors to predict and search for the most active catalysts.

Особенностью применения метода ОП к поиску активных катализаторов состоит в том, что доминирующей целью является повышение активности катализатора, т.е. главным фактором в ФК должно быть увеличение каталитической активности в подгруппе по сравнению со всем набором данных, а не размер подгруппы. Однако при этом статистическая значимость подгруппы может уменьшиться, поскольку материалов с высокой активностью в тренировочном наборе мало, так что лишь небольшая доля материалов из тренировочного набора данных войдет в подгруппу, что может привести к уменьшению предсказательной способности селекторов. Поэтому для надежности предсказаний необходим метод, позволяющий находить подгруппы с максимально высокой предсказательной способностью для заданного диапазона значений целевого свойства (каталитической активности).A key feature of applying the OP method to the search for active catalysts is that the dominant goal is to increase catalyst activity; i.e., the primary factor in PK should be an increase in catalytic activity in a subgroup compared to the entire dataset, rather than the subgroup size. However, this may reduce the statistical significance of the subgroup, as the training set contains few materials with high activity, meaning that only a small fraction of the materials in the training dataset will be included in the subgroup. This may reduce the predictive power of the selectors. Therefore, to ensure reliable predictions, a method is needed to find subgroups with the highest possible predictive power for a given range of target property (catalytic activity).

Перекрестная проверка (ПП) широко применяется для поиска таких параметров методов машинного обучения (МО) и майнинга данных (МД) (гиперпараметров), которые дают модели машинного обучения с наиболее высокой предсказательной способностью, т.е. с наиболее низкой ошибкой предсказания для данных, не включенных в тренировочный набор данных. Например, в методе N-кратной ПП (https://scikit-learn.Org/1.5/modules/cross_validation.html) обучающий набор данных разбивается на N (обычно) примерно одинаковых частей, затем для каждой из этих N частей модель МО тренируется на наборе данных, из которого данная часть изъята, и вычисляется ошибка предсказания полученной модели. После этого ошибки предсказания, полученные таким путем для всех N частей усредняются. Эта процедура повторяется для различных наборов гиперпараметров, что в итоге позволяет найти такой набор гиперпараметров, который дает минимальную ошибку предсказания. Машинное обучение с этим набором гиперпараметров на полном наборе данных дает окончательную модель машинного обучения с максимальной предсказательной способностью. В методе ОП ФК может рассматриваться как гиперпараметр.Cross-validation (CV) is widely used to find machine learning (ML) and data mining (DM) parameters (hyperparameters) that yield machine learning models with the highest predictive power, i.e., the lowest prediction error for data not included in the training dataset. For example, in the N-fold CV method (https://scikit-learn.Org/1.5/modules/cross_validation.html), the training dataset is split into N (usually) roughly equal parts. For each of these N parts, the CV model is trained on the dataset from which that part was excluded, and the prediction error of the resulting model is calculated. The prediction errors obtained in this way for all N parts are then averaged. This procedure is repeated for different sets of hyperparameters, ultimately finding the set of hyperparameters that yields the minimum prediction error. Machine learning with this set of hyperparameters on the full dataset yields a final machine learning model with maximum predictive power. In the OP method, the FC can be considered a hyperparameter.

Целью заявленного решения является создание метода повышения надежности предсказаний селекторов подгрупп данных, предназначенных для быстрого прогнозирования таких сочетаний характеристик, при которых достигается оптимизация целевого свойства. Здесь под характеристиками и целевым свойством понимаются любые свойства материалов или процессов, которые можно измерить или рассчитать математическими методами. Под оптимизацией понимается достижение желаемых количественных или качественных значений целевого свойства.The goal of the proposed solution is to develop a method for improving the reliability of data subset selector predictions designed to quickly predict combinations of characteristics that optimize a target property. Here, characteristics and target properties are defined as any properties of materials or processes that can be measured or calculated using mathematical methods. Optimization is defined as achieving the desired quantitative or qualitative values of a target property.

В контексте ОП, ПП может быть использована для отбора такой ФК, с которой оптимизирующие ФК подгруппы имеют наибольшую предсказательную силу, т.е. наименьшее число ошибок в предсказании, имеют ли новые данные, попадающие в подгруппу, желаемые свойства. Например, в формуле (1) набор ФК можно сгенерировать путем введения степени 0<γ<1 для частоты популяции Ns/Na. Чем меньше будет у, тем меньше будет размер оптимальной подгруппы, но тем больше будет отклонение среднего целевого свойства в подгруппе от среднего по всему набору данных. Если интересны подгруппы с наибольшим отклонением, то меньшие значения у дают более интересные подгруппы. Однако для подгрупп меньшего размера предсказательная способность ОП уменьшается. ПП дает возможность найти минимальное значение у, для которого предсказательная способность подгрупп остается на приемлемом уровне.In the context of OP, PP can be used to select a FC for which the optimizing FC subgroups have the highest predictive power, i.e., the fewest errors in predicting whether new data falling into a subgroup have the desired properties. For example, in formula (1), a set of FCs can be generated by introducing the power 0<γ<1 for the population frequency N s /N a . The smaller y, the smaller the size of the optimal subgroup, but the greater the deviation of the average target property in the subgroup from the average for the entire data set. If subgroups with the greatest deviation are of interest, then smaller values of y yield more interesting subgroups. However, for smaller subgroups, the predictive power of OP decreases. PP makes it possible to find the minimum value of y for which the predictive power of the subgroups remains at an acceptable level.

В заявленном решении предлагается использовать ПП для отбора подгрупп, которые наименее чувствительны к вариациям состава тренировочного набора данных. Ключевое отличие от традиционных подходов к ПП состоит в том, что для нахождения предсказательных подгрупп используется вариация в самих подгруппах, а не в ФК. Для фиксированной формы ФК часто существует множество подгрупп со значениями ФК, близкими к максимальному. Это происходит из-за корреляции между основными характеристиками, которые входят в условия, определяющие подгруппы, а также корреляции между условиями, из которых составляются селекторы. Эту вариацию можно использовать, чтобы отобрать наиболее предсказательные подгруппы. При этом отклонение значений ФК для таких подгрупп от значений ФК для подгрупп, оптимальных для каждого подмножества данных, тестируемого в ПП, может использоваться как критерий предсказательной способности подгруппы. Этот подход можно использовать как независимо, так и наряду с традиционным подходом ПП, чтобы увеличить предсказательную способность ОП.The proposed solution proposes using PP to select subgroups that are least sensitive to variations in the composition of the training dataset. The key difference from traditional approaches to PP is that it uses variation within the subgroups themselves, rather than within the PK, to find predictive subgroups. For a fixed PK shape, there are often many subgroups with PK values close to the maximum. This occurs due to the correlation between the main characteristics included in the conditions defining the subgroups, as well as the correlation between the conditions from which the selectors are constructed. This variation can be exploited to select the most predictive subgroups. Moreover, the deviation of the PK values for such subgroups from the PK values for the subgroups optimal for each data subset tested in PP can be used as a criterion for the predictive ability of the subgroup. This approach can be used both independently and alongside the traditional PP approach to increase the predictive ability of OP.

Другими словами, сами условия, входящие в селекторы подгрупп, можно рассматривать как параметры метода, которые можно оптимизировать с помощью ПП для улучшения предсказательной способности подгрупп. Поскольку число условий может быть велико, число параметров для оптимизации тоже велико, но как раз алгоритмы, используемые для поиска оптимальных подгрупп, подходят для эффективной оптимизации функций с большим числом переменных. Например, используется метод Монте-Карло (Uncovering structure-property relationships of materials by subgroup discovery, New Journal of Physics, https://iopscience.iop.org/article/10.1088/1367-2630/aa57c2), поиск по лучу (https://en.wikipedia.org/wiki/Beam search), метод ветвей и границ (А. Н. Land and A. G. Doig (1960). "An automatic method of solving discrete programming problems". Econometrica. Vol.28, no. 3. pp. 497-520. doi: 10.2307/1910129). Таким образом, задачи поиска оптимальных подгрупп и увеличения их предсказательной способности могут эффективно решаться одновременно. Общая схема алгоритма для поиска таких предсказательных подгрупп следующая:In other words, the conditions themselves included in the subgroup selectors can be viewed as method parameters that can be optimized using PP to improve the predictive power of the subgroups. Since the number of conditions can be large, the number of parameters to optimize is also large, but the algorithms used to find optimal subgroups are precisely suited for efficient optimization of functions with a large number of variables. For example, the Monte Carlo method (Uncovering structure-property relationships of materials by subgroup discovery, New Journal of Physics, https://iopscience.iop.org/article/10.1088/1367-2630/aa57c2), beam search (https://en.wikipedia.org/wiki/Beam search), and branch and bound methods (A. H. Land and A. G. Doig (1960). "An automatic method of solving discrete programming problems". Econometrica. Vol. 28, no. 3. pp. 497-520. doi: 10.2307/1910129) are used. Thus, the problems of finding optimal subgroups and increasing their predictive ability can be effectively solved simultaneously. The general scheme of the algorithm for finding such predictive subgroups is as follows:

1. Из тренировочного набора данных создают N тренировочных наборов, следуя какой-либо схеме ПП.1. From the training dataset, N training sets are created following some PP scheme.

2. Для каждого из тренировочных наборов данных, полученных на предыдущем шаге, найти оптимальное значение ФК с помощью одного из вышеперечисленных алгоритмов.2. For each of the training data sets obtained in the previous step, find the optimal value of the FC using one of the above algorithms.

3. С помощью одного из вышеперечисленных алгоритмов находят подгруппы, которые минимизируют отклонение ФК от оптимальных значений ФК для всех тренировочных наборов ПП одновременно.3. Using one of the above algorithms, find subgroups that minimize the deviation of the FC from the optimal FC values for all training sets of the PP simultaneously.

Мера отклонения на шаге 3 может быть выбрана по-разному. Например, это может быть средняя разность между значениями ФК для данной подгруппы и оптимальными значениями ФК для наборов тренировочных данных ПП. Однако такой выбор может привести к слишком большим отклонениям для одного или нескольких тренировочных наборов, если оптимальные значения ФК для этих наборов сильно отличаются от остальных наборов. Чтобы этого избежать, можно использовать максимальное по всем наборам относительное отклонение от оптимальных значений ФК. Наиболее предсказательная подгруппа должна минимизировать это максимальное отклонение.The deviation measure in step 3 can be chosen differently. For example, it could be the average difference between the FC values for a given subset and the optimal FC values for the PP training datasets. However, this choice can lead to excessive deviations for one or more training sets if the optimal FC values for these sets differ significantly from the other sets. To avoid this, the maximum relative deviation from the optimal FC values across all sets can be used. The most predictive subset should minimize this maximum deviation.

Заявленное решение позволяет осуществить повышение надежности предсказаний селекторов подгрупп данных, предназначенных для прогнозирования таких сочетаний характеристик, при которых достигается максимизация каталитической активности. Такой метод может применяться на любом предприятии, где необходима оптимизация каталитических процессов. При этом найденные селекторы подгрупп будут давать более надежные предсказания для новых данных, не включенных в тренировочный набор.The proposed solution improves the reliability of predictions for data subgroup selectors designed to predict combinations of characteristics that maximize catalytic activity. This method can be applied at any enterprise requiring catalytic process optimization. Furthermore, the resulting subgroup selectors will provide more reliable predictions for new data not included in the training set.

Ниже приведен подробный алгоритм работы метода.Below is a detailed algorithm of the method.

1) Исследуется класс катализаторов реакции выделения кислорода MaMb-TDC, где Ma, Mb - переходные металлы, TDC - тиофендикарбоновая кислота.1) The class of oxygen evolution reaction catalysts MaMb-TDC is studied, where Ma, Mb are transition metals, TDC is thiophenedicarboxylic acid.

2) Набор данных получен с использованием пакета VASP (S. Grimme, J. Comput. Chem. 27 (2006) 1787-1799). Все расчеты сделаны в рамках теории функционала плотности с приближенным функционалом РВЕ ([J. P. Perdew, K. Burke, М. Ernzerhof, Phys. Rev. Lett.1996, 77, 3865) с поправкой Хаббарда U, реализованной в пакете VASP. Значения U=3,4 [Phys. Rev. В 77, 241201 (2008).], 2,0 [Phys. Chem. Chem. Phys. 13, 978-984 (2010)], 4,0 [Chemistry of Materials 27, №17 (2015): 5856-5867], 3,2 [Nano Energy 68, 104306 (2020)], 4,0 [Acta Mater. 163, 199-207 (2019)] и 3,5 эВ [Surface Science 606, №17-18 (2012): 1422-1425] использовались для Ni, Co, Fe, Mn, Ti и Cr соответственно. Целевое свойство (добавочный потенциал реакции) и характеристики, которые используются для определения подгрупп, рассчитаны для 100 материалов. Оптимальные катализаторы должны иметь как можно меньший добавочный потенциал.2) The data set was obtained using the VASP package (S. Grimme, J. Comput. Chem. 27 (2006) 1787–1799). All calculations were performed within the framework of the density functional theory with the approximate PBE functional ([J. P. Perdew, K. Burke, M. Ernzerhof, Phys. Rev. Lett. 1996, 77, 3865) with the Hubbard correction U implemented in the VASP package. The values of U = 3.4 [Phys. Rev. B 77, 241–201 (2008)], 2.0 [Phys. Chem. Chem. Phys. 13, 978–984 (2010)], 4.0 [Chemistry of Materials 27, no. 17 (2015): 5856–5867], 3.2 [Nano Energy 68, 104–306 (2020)], 4.0 [Acta Mater. 163, 199–207 (2019)], and 3.5 eV [Surface Science 606, no. 17–18 (2012): 1422–1425] were used for Ni, Co, Fe, Mn, Ti, and Cr, respectively. The target property (additional reaction potential) and the characteristics used to define the subgroups were calculated for 100 materials. Optimal catalysts should have as low an additional potential as possible.

3) Набор данных с дополнительными изменениями для ПП приведен ниже в формате XARF, используемом алгоритмом метода ОП (property - целевое свойство в вольтах):3) The data set with additional modifications for the PP is given below in the XARF format used by the OP (property - target property in volts) method algorithm:

4) Набор данных модифицирован следующим образом: столбец 1 (property) скопирован в десять новых столбцов (prop1- prop 10). В каждом из скопированных столбцов 10% данных заменены знаком «?», при этом каждая строчка содержит только один знак «?». Эти столбцы используются в программной реализации нового метода ОП с ПП. Данный формат не является единственно возможным для реализации нового метода ОП с ПП, данные ОП могут генерироваться автоматически. Способ, которым генерируются данные для ПП, не является существенной частью предлагаемого изобретения.4) The data set is modified as follows: column 1 (property) is copied into ten new columns (prop1 - prop10). In each of the copied columns, 10% of the data is replaced with the "?" character, with each row containing only one "?" character. These columns are used in the software implementation of the new OP with PP method. This format is not the only possible one for implementing the new OP with PP method; OP data can be generated automatically. The method by which data for PP is generated is not an essential part of the proposed invention.

5) Характеристики выбирались на основе физических представлений о влиянии свойств активного центра Ма, (первого элемента в первом столбце набора данных), легирующего элемента (второго элемента в первом столбце набора данных) и мостиковых атомов кислорода, соединяющих Ма и Mb в структуре металлоорганического каркаса на добавочный потенциал. Список используемых характеристик приведен в таблице 1:5) The characteristics were selected based on physical concepts about the influence of the active site properties Ma (the first element in the first column of the data set), the dopant (the second element in the first column of the data set), and the bridging oxygen atoms connecting Ma and Mb in the metal–organic framework structure on the additional potential. The list of characteristics used is given in Table 1:

6) К набору данных применяется новый метод ОП с ПП. Новый метод ОП с ПП, описанный выше, реализован авторами изобретения в модифицированной версии Java программы realkd (http://www.realkd.org/. Была использована следующая функция качества для ПП:6) A new method of OP with PP is applied to the data set. The new method of OP with PP, described above, was implemented by the authors of the invention in a modified version of the Java program realkd (http://www.realkd.org/). The following quality function for PP was used:

где Ns, Na - число материалов в подгруппе (s) и во всем наборе данных (а), с - параметр, Ns<c - число материалов в подгруппе (s) с добавочным потенциалом ниже с, θ - функция Хевисайда. Данная форма функции качества мотивирована понятием получения информации в статистике: информация максимизируется, когда большая часть подгруппы находится внутри заданного интервала. Это позволяет находить подгруппы, содержащие как можно больше материалов, для которых максимальный добавочный потенциал ниже с. Конкретный выбор целевой функции не является существенной частью данного изобретения.where N s , N a are the numbers of materials in the subgroup (s) and in the entire data set (a), c is a parameter, N s<c is the number of materials in the subgroup (s) with an additional potential below c, and θ is the Heaviside function. This form of the quality function is motivated by the concept of information gain in statistics: information is maximized when most of the subgroup is within a given interval. This allows one to find subgroups containing as many materials as possible for which the maximum additional potential is below c. The specific choice of the objective function is not an essential part of this invention.

Полученная подгруппа с максимальным значением ФК для предсказания, имеет ли данный катализатор добавочный потенциал ниже с=0.5 эВ, имеет следующий вид:The resulting subgroup with the maximum FC value for predicting whether a given catalyst has an additional potential below c=0.5 eV has the following form:

Для теста нового метода ОП с ПП приведенный выше набор данных разбивался на две части случайным образом: а) на 90% и 10%, б) на 80% и 20%. После этого для большей части каждого из разбиений а), и б) применялся метод ОП с ПП и обычный метод с ФК, приведенной выше, с параметром с=0.5 и 0.6 для 90%/10% и 80%/20% разбиений, соответственно. Затем полученные подгруппы были применены к 100% данных, и получено число ошибочных предсказаний, и их средний добавочный потенциал. Результаты приведены в таблице 2.To test the new OP with PP method, the above dataset was randomly split into two parts: a) 90% and 10%, b) 80% and 20%. Afterwards, the OP with PP method and the regular method with the above-mentioned PK were applied to the majority of each of the splits a), and b), with the parameter c = 0.5 and 0.6 for the 90%/10% and 80%/20% splits, respectively. The resulting subgroups were then applied to 100% of the data, and the number of mispredictions and their average incremental potential were obtained. The results are presented in Table 2.

Видно, что даже при очень малом размере подгруппы новый метод ОП с ПП дает в среднем лучшие предсказания, а именно: количество неправильно классифицированных материалов (т.е. попавших в подгруппу, но имеющих добавочный потенциал выше порога) и среднее значение добавочного потенциала в подгруппе меньше, чем в стандартном подходе ОП.It can be seen that even for a very small subgroup size, the new OP with PP method gives better predictions on average, namely: the number of incorrectly classified materials (i.e., those included in the subgroup but having an additional potential above the threshold) and the average value of the additional potential in the subgroup are smaller than in the standard OP approach.

На Фиг. 2 представлен общий вид программируемого многофункционального устройства (1600). На базе устройства (1600) может быть реализовано любое из устройств (110, 120, 130, 140, 210, 230, 240, 260) и иной тип устройства, обеспечивающего компьютерную обработку данных, необходимых для реализации заявленного способа.Fig. 2 shows a general view of a programmable multifunctional device (1600). On the basis of the device (1600), any of the devices (110, 120, 130, 140, 210, 230, 240, 260) and another type of device that provides computer processing of data necessary for the implementation of the claimed method can be implemented.

В общем случае, вычислительное устройство (1600) содержит объединенные общей шиной информационного обмена (1601) один или несколько процессоров (1602), средства памяти, такие как ОЗУ (1603) и ПЗУ (1604), интерфейсы ввода/вывода (1605), устройства ввода/вывода (1406), и устройство для сетевого взаимодействия с телекоммуникационной сетью передачи данных (1607).In general, the computing device (1600) comprises one or more processors (1602), memory means such as RAM (1603) and ROM (1604), input/output interfaces (1605), input/output devices (1406), and a device for network interaction with a telecommunications data transmission network (1607), united by a common information exchange bus (1601).

Процессор (1602) - это интегральная схема, исполняющая машинные инструкции (код программ), главная часть аппаратного обеспечения компьютера. Может содержать несколько процессорных ядер в одном корпусе.A processor (1602) is an integrated circuit that executes machine instructions (program code), the main component of a computer's hardware. It can contain multiple processor cores in a single package.

ОЗУ (оперативное запоминающее устройство) (1603) - это временное хранилище, в котором содержатся данные и машиночитаемых инструкций для выполнения необходимых операций по логической обработке данных.RAM (Random Access Memory) (1603) is a temporary storage device that contains data and machine-readable instructions to perform the necessary logical data processing operations.

ПЗУ (постоянное запоминающее устройство) (1604) - это тип энергонезависимой памяти, используемый в компьютерах и других электронных устройствах. ПЗУ (1604) представляет собой одно или более устройств постоянного хранения данных, например, жесткий диск (HDD), твердотельный накопитель данных (SSD) и пр.ROM (read-only memory) (1604) is a type of non-volatile memory used in computers and other electronic devices. ROM (1604) represents one or more permanent storage devices, such as a hard disk drive (HDD), solid-state drive (SSD), etc.

Интерфейс в/в (интерфейс ввода/вывода) (1605) -это «проводник» между пользователем и программой, операционной системой, техническим устройством или способ взаимодействия приложений между собой.An I/O interface (input/output interface) (1605) is a "conductor" between the user and a program, operating system, technical device, or a way for applications to interact with each other.

Устройства ввода и вывода (1606) - это периферийное оборудование, предназначенное для ввода и вывода данных или сигналов в компьютер или в другое электронное устройство во время его работы. Применяются различные средства (1606) В/В информации, например, клавиатура, дисплей (монитор), компьютерная мышь, трекбол, тачпад, световое перо, графический планшет, сенсорный экран или тачскрин и т.п.Input and output devices (1606) are peripheral equipment designed to input and output data or signals into a computer or other electronic device during its operation. Various I/O devices (1606) are used, such as a keyboard, display (monitor), computer mouse, trackball, touchpad, stylus, graphics tablet, touchscreen, etc.

Средство сетевого взаимодействия (1607) обеспечивает передачу данных устройством (1600) посредством внутренней или внешней вычислительной сети, например, Интранет, Интернет, ЛВС и т.п. В качестве одного или более средств (1606) может использоваться, но не ограничиваться: Ethernet карта, модем, Bluetooth модуль, Wi-Fi модуль и др.The network communication means (1607) ensures the transmission of data by the device (1600) via an internal or external computer network, for example, an Intranet, the Internet, a LAN, etc. One or more means (1606) may be, but are not limited to: an Ethernet card, a modem, a Bluetooth module, a Wi-Fi module, etc.

Несмотря на то, что изобретение описано со ссылкой на раскрываемые варианты воплощения, для специалистов в данной области должно быть очевидно, что конкретные подробно описанные эксперименты приведены лишь в целях иллюстрирования настоящего изобретения, и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения. Должно быть понятно, что возможно осуществление различных модификаций без отступления от сути настоящего изобретения.Although the invention has been described with reference to the disclosed embodiments, it will be apparent to those skilled in the art that the specific experiments described in detail are provided merely for the purpose of illustrating the present invention and should not be construed as limiting the scope of the invention in any way. It should be understood that various modifications are possible without departing from the spirit of the present invention.

Claims (7)

Компьютерно-реализуемый способ прогнозирования активности катализаторов, содержащий этапы, на которых:A computer-implemented method for predicting catalyst activity, comprising the following steps: осуществляют выбор набора характеристик на основе доменного знания, связанных с каталитической активностью, при этом для практической ценности подгрупп как прогнозирующих моделей выбранные значения характеристик должны быть легче определимы для катализаторов, не включенных в тренировочный набор данных, чем каталитическая активность;select a set of characteristics based on domain knowledge related to catalytic activity, whereby for the subsets to be of practical value as predictive models, the selected characteristic values should be more easily determinable for catalysts not included in the training data set than catalytic activity; формируют тренировочный набор данных и рассчитывают значения характеристик методами квантовой химии для катализаторов в этом наборе;a training data set is formed and the characteristic values are calculated using quantum chemistry methods for the catalysts in this set; рассчитывают значения каталитической активности методами квантовой химии для катализаторов в тренировочном наборе данных;calculate catalytic activity values using quantum chemistry methods for catalysts in the training data set; применяют метод обнаружения подгрупп (ОП) со встроенной перекрестной проверкой для поиска селекторов подгрупп, содержащих и прогнозирующих катализаторы с большой каталитической активностью;The subgroup detection (SD) method with built-in cross-validation is used to find subgroup selectors that contain and predict catalysts with high catalytic activity; рассчитывают характеристики для большого числа материалов-кандидатов, не включенных в тренировочный набор;calculate characteristics for a large number of candidate materials not included in the training set; используют найденные селекторы подгрупп для прогнозирования и поиска наиболее активных катализаторов.use the found subgroup selectors to predict and search for the most active catalysts.
RU2024137500A 2024-12-16 Method and computer system for predicting catalyst activity RU2848144C1 (en)

Publications (1)

Publication Number Publication Date
RU2848144C1 true RU2848144C1 (en) 2025-10-16

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220299952A1 (en) * 2018-01-30 2022-09-22 Imubit Israel Ltd. Control system with optimization of neural network predictor
RU2786783C1 (en) * 2021-12-29 2022-12-26 Публичное акционерное общество "Газпром нефть" Method, system and machine-readable media with a software product for predicting changes in catalyst activity in a diesel fuel hydrotreating plant
US20230098789A1 (en) * 2021-08-16 2023-03-30 Chevron Phillips Chemical Company Lp Modulating co-monomer selectivity using non-covalent dispersion interactions in group 4 olefin polymerization catalysts
US20230330652A1 (en) * 2020-06-10 2023-10-19 Chevron Phillips Chemical Company, Lp Machine Learning and Statistical Analysis for Catalyst Structure Prediction and Design
US20240013866A1 (en) * 2021-03-25 2024-01-11 Osmo Labs, Pbc Machine learning for predicting the properties of chemical formulations
US20240202549A1 (en) * 2022-12-16 2024-06-20 Firmenich Sa Method and system for predicting a stability value for a determined fragrance in a determined fragrance base

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220299952A1 (en) * 2018-01-30 2022-09-22 Imubit Israel Ltd. Control system with optimization of neural network predictor
US20230330652A1 (en) * 2020-06-10 2023-10-19 Chevron Phillips Chemical Company, Lp Machine Learning and Statistical Analysis for Catalyst Structure Prediction and Design
US20240013866A1 (en) * 2021-03-25 2024-01-11 Osmo Labs, Pbc Machine learning for predicting the properties of chemical formulations
US20230098789A1 (en) * 2021-08-16 2023-03-30 Chevron Phillips Chemical Company Lp Modulating co-monomer selectivity using non-covalent dispersion interactions in group 4 olefin polymerization catalysts
RU2786783C1 (en) * 2021-12-29 2022-12-26 Публичное акционерное общество "Газпром нефть" Method, system and machine-readable media with a software product for predicting changes in catalyst activity in a diesel fuel hydrotreating plant
US20240202549A1 (en) * 2022-12-16 2024-06-20 Firmenich Sa Method and system for predicting a stability value for a determined fragrance in a determined fragrance base

Similar Documents

Publication Publication Date Title
Swann et al. Representing molecular and materials data for unsupervised machine learning
Noor et al. Deep-m5U: a deep learning-based approach for RNA 5-methyluridine modification prediction using optimized feature integration
Banerjee et al. Read-across-based intelligent learning: development of a global q-RASAR model for the efficient quantitative predictions of skin sensitization potential of diverse organic chemicals
US20210090689A1 (en) Methods for predicting the gibbs free energy of biochemical reactions
Vadaddi et al. Graph to activation energy models easily reach irreducible errors but show limited transferability
CN112002380B (en) Self-adaptive design method of high-generation heat energetic material based on machine learning
Maggiora et al. From qualitative to quantitative analysis of activity and property landscapes
Zhao et al. Revisiting machine learning based test case prioritization for continuous integration
Anstine et al. AIMNet2-rxn: A Machine Learned Potential for Generalized Reaction Modeling on a Millions-of-Pathways Scale
Zeng et al. Improved Population-Based Incremental Learning of Bayesian Networks with partly known structure and parallel computing
Carbone et al. Accurate, uncertainty-aware classification of molecular chemical motifs from multimodal x-ray absorption spectroscopy
RU2848144C1 (en) Method and computer system for predicting catalyst activity
Li et al. Machine learning-driven prediction of nitrate-N adsorption efficiency by Fe-modified biochar: Refined model tuning and identification of crucial features
Rajkó et al. Development of partial least squares regression with discriminant analysis for software bug prediction
Akpinaroglu et al. Improved antibody structure prediction by deep learning of side chain conformations
Liu et al. MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback
US20250201336A1 (en) Directed evolution of molecules by iterative experimentation and machine learning
Wakiru A decision tree-based classification framework for used oil analysis applying random forest feature selection
Quaye Random Forest For High-Dimensional Data
Olanipekun et al. An improved prediction of transparent conductor formation energy using pycaret: An open-source machine learning library
Khajehgili-Mirabadi et al. Enhancing QSAR modeling: a fusion of sequential feature selection and support vector machine
Yan et al. Machine learning-guided identification of critical descriptors of hydration-driven structural transitions in ionic liquids
Luthfi et al. Enhancing Software Defect Prediction: HHO-Based Wrapper Feature Selection With Ensemble Methods
Zhang et al. The impact of feature selection and feature reduction techniques for code smell detection: A comprehensive empirical study
Kar et al. On error measures for validation and uncertainty estimation of predictive QSAR models