CN116569192A

CN116569192A - 自学习分析解决方案核心

Info

Publication number: CN116569192A
Application number: CN202080107884.4A
Authority: CN
Inventors: 毛罗·A·达莫; 林威; 威廉·施马尔佐
Original assignee: Hitachi Data System Corp
Current assignee: Hitachi Vantara LLC
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-08-08
Also published as: EP4264503A1; EP4264503A4; WO2022139789A1; JP2023550987A; JP7618804B2; US20240046041A1; US12468714B2

Abstract

本文描述的示例实现方式针对一种具有与多个设备相关联的多个传感器的系统，对于从多个传感器接收到假设画布和元数据，所述系统涉及：生成多个元流水线阶段，所述多个元流水线阶段具有所述元数据和一个或多个阶段，所述一个或多个阶段中的每个阶段是基于元数据和假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序；以及对元数据按执行顺序执行多个元流水线阶段以生成用于系统的分析模型。

Description

自学习分析解决方案核心

技术领域

本公开针对数据分析平台，更具体地，针对促进自学习分析解决方案核心的系统和方法。

背景技术

在相关技术中，创建模型是用于数据分析的具有挑战性的问题，部分原因在于资源缺口。数据科学家和主题专家在公司中的职位越来越少。

在相关技术中，存在用于促进向先前的训练模型学习的系统的问题。在典型的数据科学过程中，数据科学家尝试若干种具有多个超参数的模型。这个过程需要数据科学团队花费大量时间，并且在结束时，数据科学家只保留少量创建的模型。向这些模型学习的所有不起作用的东西即使在稍后构建模型时可能有用也都会被丢弃。由于模型的历史不被保留，因此不能识别什么可能对将来的分析起作用。

在相关技术中，分析中的挑战之一是使用商业需求创建模型。由于阶段的无限可能性，理解商业问题、将其转化为假设测试以及应用适当流水线的过程是复杂的。阶段是在机器学习流水线中的分析流水线的一个顺序步骤。

在相关技术中，从先前的特征工程实验中吸取教训存在问题。数据科学家投入大量时间准备数据。由于这种该学习不会被存储，因此从特征工程和特征选择中吸取的所有教训都被浪费了。保留这些元特征教训对于在未来模型中使用可能是重要的。

发明内容

为了解决现有技术中的问题，示例实现方式涉及包括一组工具和程序的框架。为了促进从先前的训练模型中学习并使用商业需求来创建模型的系统，本文描述的示例实现方式结合了元学习，并解决了将分析解决方案生产到产品中的那些资源缺口。

在示例实现方式中，自然语言处理(NLP)将用于创建分析解决方案核心(ASC)的假设画布(文本)的数字表示，并将其存储在元学习数据库(DB)中，所述元学习数据库存储元流水线(在先前的用例中使用的)，这些元流水线由一个或多个元阶段组件组成，所述元阶段组件包括一组分析应用程序和机器学习应用程序。示例实现方式涉及创建可以存储关于建模阶段的所有信息的数据库。在数据科学周期中，建模阶段是数据科学家用若干不同的特征和模型进行实验以确定什么模型最适合解决问题的时候。数据库存储所有这些实验并在未来的分析生产中使用它们，将先前的实验转化为未来可能的资产。

该解决方案的主要目的是保留可在未来分析中起作用的模型，从而节省时间和资源。

此外，响应于对解决方案的新请求，NLP使用概率搜索通过使用词对的数字表示来查找不同的文本序列的可能性(例如，低可能性是不同的词组，高概率是相似的词组)，并且使用距离方法使用输入信息来计算元学习DB中的词对的相似性。

数据科学项目的创建需要数据工程、数据科学和主题专业知识。这三个角色各自为数据科学项目做出了重要贡献。数据科学家提供商业、数学和编码方面的专业知识；主题专家为用例的领域知识做出贡献；数据工程师在项目的数据工程部分为数据科学家和主题专家提供支持。示例实现方式允许创建将数据科学家、主题专家和领域专家知识封装在系统中的数据科学项目。示例实现方式使用假设商业画布，其是用作具有构建分析解决方案所需的所有商业需求的输入信息的人工制品。

分析解决方案核心的可组合性解决了分析人工制品缺乏可重用性的问题。如今，分析人工制品在自动程序中不被重复使用。数据科学家需要设计分析流水线以重复使用这些阶段。分析组件连接起来，构建ASC。该ASC将使用组件而生成，解决方案使用假设画布作为分析的背景来选择正确阶段。例如，如果用例是流失分析(churn analysis)并且用户想要使用交易信息来运行流失分析，那么用于转化的数据集可以包括交易数据集的新近度、频率和货币化，所述交易数据集对分类特征进行编码以创建客户产品的表示。该表示将是要训练的若干种机器学习算法的输入。

在找不到适当的解决方案核心的情况下，从DB中选择最接近的元阶段，并使用模拟过程将所选择的组件组合为新的元流水线ASC，所述模拟过程具有学习新任务和学习什么是最佳学习方法的能力。在学习到最佳方法之后，系统将在未来模型中应用这些方法。ASC的所有组合都将被存储在元学习DB中。

在相关技术的实现方式中，在数据科学家选择最终模型之后，数据科学项目丢掉未被使用的模型。这里的主要目的是将来自所生成的所有模型的所有信息存储作为未来模型的参考。保留该信息可用于新的分析实验。

本文描述的示例实现方式旨在为商业用户提供端到端的解决方案。假设商业画布提供了数据科学家构建层所需的所有要求：画布连接到自然语言理解(NLU)和语义匹配层，该语义匹配层使用分析解决方案核心特性(比如可重用性和可组合性)而在分析流水线中转化商业用例。

本公开的方面涉及一种用于涉及与多个设备相关联的多个传感器的系统的方法，该方法在从多个传感器接收到假设画布和元数据时包括：生成多个元流水线阶段，该多个元流水线阶段包括元数据和一个或多个阶段，该一个或多个阶段中的每个阶段是基于元数据和假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序；以及对元数据按执行顺序执行该多个元流水线阶段以生成用于系统的分析模型。

本公开的方面涉及一种存储用于系统的指令的计算机程序，所述系统涉及与多个设备相关联的多个传感器，在从多个传感器接收到假设画布和元数据时，所述指令包括：生成多个元流水线阶段，该多个元流水线阶段包括元数据和一个或多个阶段，该一个或多个阶段中的每个阶段是基于元数据和假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序；以及对元数据按执行顺序执行该多个元流水线阶段以生成用于系统的分析模型。计算机程序可以存储在非瞬态计算机可读介质中并由一个或多个处理器执行。

本公开的方面涉及一种系统，该系统涉及与多个设备相关联的多个传感器，以及在从多个传感器接收到假设画布和元数据时，用于生成多个元流水线阶段的装置，该多个元流水线阶段包括元数据和一个或多个阶段，该一个或多个阶段中的每个阶段是基于元数据和假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序；以及对元数据按执行顺序执行该多个元流水线阶段以生成用于系统的分析模型的装置。

本公开的方面涉及一种用于系统的管理装置，所述系统涉及与多个设备相关联的多个传感器，所述管理装置涉及处理器，该处理器被配置为：生成多个元流水线阶段，该多个元流水线阶段包括元数据和一个或多个阶段，该一个或多个阶段中的每个阶段是基于元数据和假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序；以及对元数据按执行顺序执行该多个元流水线阶段以生成用于系统的分析模型。

附图说明

图1示出了根据示例实现方式的关于作为ASC的价值链一起起作用的各种角色的示例。

图2示出了根据示例实现方式的系统的示例架构。

图3示出了根据示例实现方式的用于开始过程的数据科学家策展流程的示例。

图4示出了根据示例实现方式的来自对运动资产的ASC连续异常监视和位置识别的ASC画布一个示例。

图5示出了根据示例实现方式的来自对运动资产的连续异常监视和位置识别的假设画布的示例。

图6示出了根据示例实现方式的系统认知的示例。

图7示出了根据示例实现方式的元学习子系统过程的示例。

图8示出了根据示例实现方式的分类树的示例。

图9示出了根据示例实现方式的元学习过程的示例。

图10示出了根据示例实现方式的强化学习(RL)过程。

图11示出了根据示例实现方式的元流水线的示例。

图12示出了根据示例实现方式的涉及具有连接的传感器和管理设备的多个系统的系统。

图13示出了具有适合在一些示例实现方式中使用的示例计算机装置的示例计算环境。

具体实施方式

下面的详细描述提供了本申请的附图和示例实现方式的细节。为了清楚起见，省略了附图之间的冗余元件的附图标记和描述。在整个描述中使用的术语作为示例提供，并不旨在是限制性的。例如，术语“自动”的使用可包括全自动实现方式或包括对实现方式的某些方面的用户或管理员控制的半自动实现方式，这取决于实践本申请的实现方式的本领域的普通技术人员所需的实现方式。选择可以由用户通过用户界面或其他输入装置进行，或者可以通过所需算法来实现。可以单独地或组合地使用本文描述的示例实现方式，并且可以根据所需的实现方式通过任何手段来实现示例实现方式的功能。

分析代码源于客户约定，并从市场角度表明了其有用的相关性。为了解释围绕分析解决方案核心(ASC)的价值链，涉及三个主要角色：生产者、策展人和消费者。生产者包括创建分析用例的那些实体。他们创建核心人工制品并将这些人工制品提供给策展人。策展人是选择、标准化和改进由生产者提供的人工制品的质量的那些实体。位于价值链末端的消费者包括在策展人应用转化程序之后消费人工制品的那些实体。

当需要分析项目时，它们由生产者100放置到系统中，生产者100涉及创建包括项目的财务和法律概况的商业用例的数据科学团队，例如确定对保密协议和知识产权条款的需求。数据科学家团队致力于构建包括假设画布和分析代码等的人工制品。在项目结束时，若干人工制品已准备好在ASC中转化。

在项目关闭之后，数据科学团队向策展人101递送客户人工制品，策展人101可以涉及ASC团队。ASC团队准备人工制品，使一切适应ASC的规范和要求，控制代码的质量，并根据需要改进代码。

在策展过程之后，人工制品准备好被部署用于消费者102。生产者100可能与客户有若干分析约定。根据这些约定，可以测试领域专家的想法，开发相关的分析代码，并将其转化为ASC。当将代码转化为ASC时，数据科学家的第一步是使代码标准化。对于该过程，数据科学家需要创建诸如python语言、假设画布、原始数据集、商业文档、技术文档、假设画布模板和ASC画布模板的人工制品。

图2示出了根据示例实现方式的系统的示例架构。具体地，图2示出了子组是如何加入统一的过程流程以支持示例实现方式的。如图1所述，生产者100从输入到用户界面201的客户约定200接收分析项目。策展人101向网络服务元数据203提供编码重构、规范定义和单元测试202。元数据203可以通过元学习系统210的管理员用户界面204作为人工制品213发布在ASC目录207中。

消费者102通过聊天机器人205与元学习系统210通信。聊天机器人205与促进用于假设画布语境化的自然语言处理(NLP)206的功能对接，以促进消费者102和元学习系统210之间的通信。元学习210对用于假设画布语境化的NLP 206的输出进行语义匹配211以提供界面212，使得可以查询数据目录215。下面参照图7来提供元学习210的元素的进一步解释。

数据科学家接收人工制品213作为“根据客户约定的分析项目”。根据所需的实现方式，这些人工制品213可以包括但不限于Python语言的代码、假设画布、原始数据集、具有用例的商业部分的解释的文档(将在假设画布模板中处理)、具有用例的技术部分的解释的文档(将在ASC画布模板中处理)等。

利用该文档，生产者100将所有包提交到代码储存库中以供策展人101使用UI/UX界面204开始工作。用于策展人101的主要目的是将来自一堆代码片段的代码转化为标准化的顺序逻辑以形成流水线和阶段。然后，策展人101验证由生产者100先前进行的所有工作。策展人101进行若干主要过程。

第一主要过程被称为“对重构规范定义和单元测试进行编码”组202，其包括以下过程：

1.将分析代码转换为ASC标准以发布到ASC目录207中。

2.移除客户端数据源系统依赖性。

3.包括并验证测试数据集。

4.审查并验证包括训练数据准备的训练数据。

5.进行代码的质量保证措施。

6.测试用于水平和垂直应用程序的代码。

7.创建YML格式以供YAML处理。

第二主要过程集中于ASC的文档准备，其包括以下程序：

1.审查ASC模型的文件。

2.审查代码注释和标准

3.将代码从python脚本格式重写为Jupyter Notebook格式

4.审查ASC开发画布。

5.创建用户旅程集成的文件。

6.审查假设开发画布。

7.创建ASC训练文件。

8.审查并验证训练数据文档。

第三主要过程是专注于代码丰富组的一组程序。该组包括用附加特征丰富分析代码的方式。

1.通过添加新特征来丰富原始分析代码，所述新特征改进用于处理时间和/或模型的准确性的代码性能。

2.如果需要，合规性和软件许可证检查和修订。

图3所示的主要目标之一是为未来阶段准备代码和人工制品，包括：

1.创建YAML文件：生产者100的数据科学家团队成员将基于工具的规范创建YAML文件。该YAML文件将具有应用程序运行和执行ASC所需的所有指南。

2.重构Python代码：如图1所示，生产者100的数据科学家团队成员将Python代码转换为ASC Python代码标准。

3.用于ASC的元数据信息的验证：网络服务元数据203利用来自ASC的元数据信息的验证。利用该信息，可以在数据库中进行上下文搜索而不是常规搜索

4.创建单元和集成测试：单元测试创建，用于测试ASC内部的块、阶段和流水线。

以上三个程序和元数据信息是网络服务元数据203的基本信息。内容需要以下人工制品：

1.YAML文件(流水线和阶段)：一组YAML格式的文件，其具有关于流水线和阶段的信息。

2.Python文件：具有ASC代码的Python文件。

3.用例元数据：具有关于ASC的参考细节的用例的信息，诸如行业类型、要解决的问题和将使用的机械规格。下面讨论ASC画布。

ASC和假设画布是两个人工制品，它们包含关于分析的运行时环境的技术组件的不同元数据并且还包含关于商业用例的信息。这两个画布都将提供自然语言理解(NLU)和NLP过程，向系统提供它是ASC的技术电子商务背景。

图4示出了根据示例实现方式的来自对运动资产的ASC连续异常监视和位置识别的ASC画布的一个示例。

在示例ASC画布中，存在各种内容部分。这样的部分可以包括以下内容。

模型描述401提供了模型及其适用性的简要说明。算法库402包括运行ASC所需的库和应用程序的列表。软件和硬件技术要求403包括处理和存储数据所需的资源列表。许可变量404包括库的许可列表。潜在用例405包括用该模型工作的潜在用例的描述。变量和数据源406包括处理算法所需的变量和数据源的列表。特征工程要求407包括处理原始数据并向模型提供更有意义的信息所需的特征列表。模块度量标准/KPI 408包括用于测量模型性能的度量标准列表。应用程序编程接口(API)(输出)409包括对ASC输出的描述。操作注释410包括对ASC重要的附加注释。

在示例实现方式中，ASC用来训练、测试和推断以下元素的模型特征的数据集。数据模式(data schema)涉及数据集的定义，包括每列的描述、列名称、变量类型、表间关系等。数据内容包括数据的内容。

图5示出了根据示例实现方式的来自对运动资产的连续异常监视和位置识别的假设画布的示例。具体地，假设画布提供关于ASC的商业数据的详细信息。

为了创建假设画布，界面提供以下用于输入的元素。假设501定义了假设。关键性能指标(KPI)502定义了将对照其测量假设进展和成功的KPI。商业价值503定义了假设的商业价值。利益相关者504指示受假设影响的组成部分。实体505定义了用于构建分析的实体。决策506定义了支持假设的最重要的决策。预测507定义了支持决策的预测。

数据源508定义了要使用的数据源。数据源508还可以定义数据源支持假设需要许多点(例如，最没有价值的1到最有价值的4)。变量(维度)509定义了可能产生更好的性能预测器的变量。建议510指示支持决策所需的建议。障碍511包括成功的技术障碍、数据障碍和组织障碍。风险512指示与假肯定和假否定相关联的成本或风险。财务评估513包括假设的增益方面的度量标准以及假设受障碍影响的点数(例如，最没有价值的1到最有价值的4)。障碍评估514包括假设的障碍评估变量以及假设受障碍影响的点数(例如，最没有价值的1到最有价值的4)。

图6示出了根据示例实现方式的系统认知的示例。图6的系统被配置为基于假设画布来确定用户所要求的ASC的背景。用户经由聊天机器人205向NLP、NLU和语义匹配过程206提供信息，然后系统转换用户需要的内容并在数据库上搜索以确定是否存在满足用户需要的ASC或者是否存在类似的ASC。在本文描述的示例实现方式中，从假设画布的转换生成的查询用于基于查询来检索或生成元流水线。元流水线由涉及来自系统底层设备的数据的元数据和被配置为对元数据顺序地执行的一个或多个元阶段组成，其中每个元阶段涉及分析应用程序或机器学习应用程序。

作为系统认知的一部分而生成的一些组件包括以下方面。首先，用户与聊天机器人205交换信息。然后，自然语言处理算法206从用户陈述中清除一些“不”的词。然后，自然语言理解模型将应用分类模型来识别对话中的用户意图。聊天机器人205捕获此信息并通过使用基于规则的算法，它将回答用户问题。

在若干次交互之后，语义匹配过程211使用绘图技术、分类法和本体论创建与识别语义相关的信息相关的模糊匹配，并将这些表示与存储在网络服务元数据203中的假设画布的数据库进行比较。如果网络服务找到语义匹配，则将从人工制品创建213和通用模型Zoo数据库218向用户提供ASC。如果它没有任何成功的匹配，则该过程将触发元学习过程210的开始以使用元学习系统216创建新的ASC。

图7示出了根据示例实现方式的元学习子系统过程210的示例。在系统认知尝试选择匹配用例并且结果不成功之后，调用元学习过程210。数据库将使用本体论/分类法处理所有预定流水线的存储。

图8示出了根据示例实现方式的分类树903的示例。分类树将商业角度与分析联系起来。例如，可以预定ASC以适应分类法上的商业问题需要。分类树903可以包含要遍历以将商业角度与分析联系起来的各种级别800、801、802、803。级别的示例可以包括但不限于商业的ASC 800、分析801、问题802和领域803。

除数据库外，它还预先构建了用于维持过程并向用户解释结果的可解释人工智能(AI)219的程序。该可解释AI 219能力还包含分类树，该分类树包括用例的最佳可解释特征。对于资产层次结构中的每个资产，该过程由以下流程中的模型管理过程协调。

首先，模型管理器224通过使用基于商业用户输入的ASC并使用资产模型中的分类法和资产来开始该过程。模型管理器将寻找最相似的ASC。

然后，模型管理器使用预定的分类法来识别数据目录215上的数据。如果需要，其将基于当前采样来填充缺失值或准备合成数据214。对于采样方法，从使用当前样本开始，模型管理器224将使用数据的分布来再现新数据，并查看哪个分布代表样本数据集。在该步骤之后，它运行Monte Carlo模拟以生成具有相同分布的随机样本。针对资产层次结构220中的每个资产调用数据目录215和合成数据过程214。

如果没有找到类似的ASC，则模型管理器224进行从元学习过程构建ASC的过程，这将参照图9进行描述。基于预先存在的ASC或基于新的ASC，使用可以在生产系统225上执行模型的模型服务器222来部署ASC。然后，模型监视221监视模型漂移并使用新数据开始新的训练阶段。如果训练阶段没有获得足够的结果，则该程序开始元学习过程216和数据表征过程217以发现新模型。如果元学习过程不成功，则整体解决方案将要求数据科学家进行微调以向前移动。对资产层次结构上的每个资产重复该过程，并且将针对所有资产的最佳性能并行地完成该过程。

图9示出了根据示例实现方式的元学习过程的示例。

在模型部署阶段，从形成元流水线905和模型创建908的元阶段的执行生成模型。该模型由AutoML库900部署并通过使用强化学习901进行训练，如图10中进一步所述。通过模型判断902针对KPI评估模型。如果需要重新创建模型，则可以向元流水线905提供反馈以修改元阶段并通过模型创建908创建新模型。

在模型训练步骤期间，图9的元学习过程用于在不存在它的情况下实现不同的ASC方法。元学习阶段定义如下。

首先，通过使用分类法903，该过程遍历元阶段储存库904并选择预定的元流水线905、元数据907和元特征906。元学习概念是在未来模型中重复使用和学习先前机器学习模型的自动学习的过程。元阶段是先前在其他用例中使用过并且可能对于相同性质的未来用例有用的分析的原子组件。这样的元阶段可以被存储在元阶段储存库904中。元流水线905是由先前在其他用例中使用过的元阶段组成的分析流水线，并且它可能对于相同性质的未来用例有用。

图10示出了根据示例实现方式的强化学习(RL)过程。RL过程的输入是将使用先前定义的元数据、元特征和元流水线来创建若干不同场景的若干潜在模型。

RL的第一轮是探索阶段，其中将基于动作来选择最佳模型，该最佳模型将使奖励系统最大化并使由多臂老虎机方法(multi-armed bandit approach)组成的遗憾最小化。每个模型将被命名为代理1000。目标是使实例的得分最大化并使性能度量标准最大化。动作是使用超参数策略在模型中选择不同的超参数。通过模型管理将收集最佳奖励的代理1000部署到生产上。这是对代理的利用。在生产环境1001上，模型管理测量健康状态并监视代理行为。如果代理的奖励不是最佳奖励，则模型管理从生产中移除当前代理并选择要利用的第二代理。重复该过程，直到该过程用尽所有代理1000。

图11示出了根据示例实现方式的元流水线1100的示例。元流水线1100涉及由可以通过不同方式组成的不同元阶段1101处理的元数据1102。可以评估这些元阶段1101中的每个元阶段，并将其与来自客户的元数据进行比较，以确定哪个元阶段1101或其组合具有最佳性能。

元阶段1101可以涉及顺序地应用和执行的不同的分析应用程序(例如，统计应用程序、可视化应用程序等)和/或机器学习应用程序。例如，元阶段1101可以涉及可以用于创建元流水线1100并按执行顺序互连的统计、分析、数据信息或机器学习模型的单元。元阶段1101的示例可以包括但不限于元特征1103、元模型1104和元可视化应用程序1105。

在元流水线1100的以下示例中，元数据1102可以涉及但不限于产品层次结构1110、交易1111、客户营销属性1112、天气数据1113和作物面积(crop acreage)1114。将元数据1102链接到作为元特征1103的第一元阶段。元特征1103涉及从元数据1102生成特征的应用程序。元特征1103用来从元数据1102生成特征的子功能的示例可以涉及数据模式1115以将元数据格式化为优选的结构和特征工程1116，以从处理的元数据中导出特征。然后，将元特征1103(即，元阶段)链接到作为元模型1104的下一个元阶段。

元模型1104被配置为吸入从元特征1103生成的特征以生成模型。在该示例中，元模型1104涉及通过使用网格搜索来识别由模型组合形成的最适合模型的多模型方法。这种用于网格搜索、随机搜索或贝叶斯优化的模型可以涉及但不限于决策树1117、随机森林1118、支持向量机1119和逻辑回归1120。

然后将元模型1104链接到下一个元阶段，该元阶段是元可视化应用程序1105。然后将元模型1104生成的模型连接到元可视化应用程序1105，该元可视化应用程序1105产生用于使分析可视化的输出。来自可视化应用程序1105的输出的示例可以涉及可能性p(i)1121、属性1122和E(Rev)-p(i)*去年收入1123。

因此，在示例元流水线1100中，元数据1102按执行顺序通过元阶段1101被处理，这涉及执行元特征1103以处理元数据1102来提取特征，然后执行元模型1104以从元特征1103吸入特征来生成模型，然后执行元可视化1105以生成可视化输出。在另一个示例实现方式中，元阶段1101的另一个示例可以涉及基于元模型1104的输出来控制系统的底层设备的控制器应用程序。

通过本文描述的示例实现方式，大规模系统(例如，分析工厂、生产线等)中的部署可以允许模型在实时更新的同时控制系统。在一个示例中，通过假设画布和元数据(包括分析代码和商业人工制品)，输出可以是具有可以以SaaS服务格式部署的模型的分析系统。

本文描述的示例实现方式可以促进模型的数据仓库，使数据科学家更容易检查和重复使用给定解决方案的任何模型。通过保留产生“坏”结果的模型，数据科学家可以检查并审查表现不佳的那些区域。对于表现良好的模型，数据科学家可以保留这些模型并重复使用它们，用不同的数据重新训练或不重新训练它们。

图12示出了根据示例实现方式的涉及具有连接的传感器的多个系统和管理设备的系统。具有连接的传感器1201-1、1201-2、1201-3和1201-4的一个或多个系统通信地耦合到网络1200，网络1200连接到管理设备1202，管理设备1202促进物联网(IoT)网关或其他制造管理系统的功能。管理设备1202管理数据库1203，数据库1203包含从系统的传感器1201-1、1201-2、1201-3和1201-4收集的历史数据，该历史数据可以包括从系统1201-1、1201-2、1201-3和1201-4接收的被标记的数据和未被标记的数据。在替代的示例实现方式中，来自系统的传感器1201-1、1201-2、1201-3、1201-4的数据可以被存储到中央储存库或中央数据库，例如吸入诸如企业资源规划系统之类的数据的专有数据库，并且管理设备1202可以从中央储存库或中央数据库访问或获取数据。根据所需的实现方式，这样的系统可包括具有传感器的机器人臂、具有传感器的涡轮、具有传感器的车床等。

图13示出了具有适合于在一些示例实现方式中使用的示例计算机装置(例如图12所示的管理设备1202)的示例计算环境。

计算环境1300中的计算机装置1305可以包括一个或多个处理单元、核或处理器1310、存储器1315(例如，RAM、ROM等)、内部存储装置1320(例如，磁性、光学、固态存储装置，和/或有机的)和/或I/O接口1325，它们中的任何一个可以耦合在用于传送信息的通信机构或总线1330上或嵌入在计算机装置1305中。根据所需的实现方式，I/O接口1325还被配置为从摄像机接收图像或向投影仪或显示器提供图像。

计算机装置1305可以通信地耦合到输入/用户接口1335和输出装置/接口1340。输入/用户接口1335和输出装置/接口1340中之一或两者可以是有线或无线接口并且可以是可拆卸的。输入/用户接口1335可包括可用于提供输入的任何物理的或虚拟的装置、组件、传感器或接口(例如，按钮、触摸屏界面、键盘、指向/光标控件、麦克风、摄像机、盲文、运动传感器、光学阅读器等)。输出装置/接口1340可包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方式中，输入/用户接口1335和输出装置/接口1340可以与计算机装置1305嵌入或物理耦合。在其他示例实现方式中，其他计算机装置可以用作计算机装置1305的输入/用户界面1335和输出装置/界面1340，或提供计算机装置1305的输入/用户界面1335和输出装置/界面1340的功能。

计算机装置1305的示例可包括但不限于高度移动的装置(例如，智能手机、车辆和其他机器中的装置、人和动物携带的装置等)、移动装置(例如，平板电脑、笔记本电脑、膝上型电脑、个人电脑、便携式电视、收音机等)以及并非为了移动而设计的装置(例如，台式计算机、其他计算机、信息亭、嵌入和/或耦合了一个或多个处理器的电视、收音机等)。

计算机装置1305可以通信地耦合(例如，经由I/O接口1325)到外部存储装置1345和网络1350以与任何数量的联网组件、装置和系统通信，包括相同或不同配置的一个或多个计算机装置。计算机装置1305或任何连接的计算机装置可以用作服务器、客户端、瘦服务器、通用机器、专用机器或另一个标记，提供服务器、客户端、瘦服务器、通用机器、专用机器或另一个标记的服务，或称为服务器、客户端、瘦服务器、通用机器、专用机器或另一个标记。

I/O接口1325可包括但不限于使用任何通信或I/O协议或标准(例如，以太网、802.1lx、通用系统总线、WiMax、调制解调器、蜂窝网络协议等)向和/或从计算环境1300中的至少所有连接的组件、装置和网络传送信息。网络1350可以是任何网络或网络的组合(例如，因特网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。

计算机装置1305可以使用计算机可用或计算机可读介质和/或使用计算机可用或计算机可读介质(包括瞬态介质和非瞬态介质)进行通信。瞬态介质包括传输介质(例如，金属电缆、光纤)、信号、载波等。非瞬态介质包括磁性介质(例如，磁盘和磁带)、光学介质(例如，CD ROM、数字视频磁盘、蓝光光盘)、固态介质(例如，RAM、ROM、闪存、固态存储装置)和其他非易失性存储装置或存储器。

计算机装置1305可以用于在一些示例计算环境中实现技术、方法、应用程序、过程或计算机可执行指令。计算机可执行指令可以从瞬态介质获取，并存储在非瞬态介质上并从非瞬态介质获取。可执行指令可以源自任何编程、脚本和机器语言(例如，C、C++、C#、Java、VisualBasic、Python、Perl、JavaScript等)中的一种或多种。

(一个或多个)处理器1310可以在本地或虚拟环境中的任何操作系统(OS)(未被示出)下执行。可以部署一个或多个应用程序，其包括逻辑单元1360、应用程序编程接口(API)单元1365、输入单元1370、输出单元1375以及用于不同单元彼此、与OS和与其他应用程序(未被示出)通信的单元间通信机构1395。所描述的单元和元件可在设计、功能、配置或实现方式方面有所不同，并且不限于所提供的描述。

在一些示例实现方式中，当信息或执行指令被API单元1365接收到时，它可以被传送到一个或多个其他单元(例如，逻辑单元1360、输入单元1370、输出单元1375)。在某些情况下，在所描述的一些示例实现方式中，逻辑单元1360可以被配置为控制单元之间的信息流并指导由API单元1365、输入单元1370、输出单元1375提供的服务。例如，一个或多个过程或实现方式的流程可以由逻辑单元1360单独或结合API单元1365来控制。输入单元1370可以被配置为获取在示例实现方式中描述的计算的输入，并且输出单元1375可以被配置为基于在示例实现方式中描述的计算提供输出。

在从多个传感器接收到图5所示的假设画布和元数据时，(一个或多个)处理器1310可以被配置为：生成多个元流水线阶段，该多个元流水线阶段包括元数据和一个或多个阶段，该一个或多个阶段中的每个阶段是基于元数据和假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序，如图11所示；以及对元数据按执行顺序执行多个元流水线阶段以生成用于系统的分析模型，如图9所示。

(一个或多个)处理器1310可以被配置为执行强化学习过程以选择所生成的多个元流水线阶段中的一些元流水线阶段以对元数据进行执行，如图10所示。

(一个或多个)处理器1310可以被配置为通过以下方式来生成多个元流水线阶段：转换假设画布以通过使用自然语言处理来生成用于语义搜索的查询；根据该查询对元学习数据库执行语义搜索以搜索与多个设备相关的一个或多个流水线；从该一个或多个流水线生成元流水线阶段；以及管理储存库中的元流水线阶段，所述储存库被配置为跟踪从元流水线阶段生成的学习模型、与学习模型相关联的元数据以及在学习模型中相关联的元特征，如图3和图6所示。

(一个或多个)处理器1310可以被配置为：对照从假设画布中提取的一个或多个关键性能指标来评估分析模型；以及基于该评估修改多个元流水线阶段中的一个或多个元流水线阶段，如图9和图10所示。

如图7至图11所示，(一个或多个)处理器1310可以被配置为对元数据按执行顺序执行多个元流水线阶段以生成用于系统的分析模型，包括：生成具有从超参数策略中选择的不同超参数的多个候选分析模型，并且其中，对照从假设画布中提取的一个或多个关键性能指标来评估分析模型包括：对照从多个传感器接收到的传感器数据来评估多个候选分析模型，所述传感器数据是通过多臂老虎机方法通过所述多个候选分析模型处理过的；其中，基于评估修改多个元流水线阶段中的一个或多个元流水线阶段还涉及：选择候选分析模型中的通过多臂老虎机方法使收集的奖励最大化的一个候选分析模型作为分析模型；以及根据所选择的一个候选分析模型来修改多个流水线阶段中的一个或多个流水线阶段。

如图5所示，假设画布可以涉及识别多个传感器中的一些传感器以获得元数据的多个数据源、与系统相关联的假设、从假设预期的预测以及与假设相关联的风险。

如图9所示，(一个或多个)处理器1310可以被配置为：执行元学习过程，该元学习过程被配置为将来自不同的元数据和元特征以及来自现有数据集和新数据集和来自不同数据集的数据结构进行比较，以在新数据集上应用元流水线。

(一个或多个)处理器1310可以被配置为通过在系统上部署分析模型来控制多个设备中的一个或多个设备。例如，根据所需的实现方式，(一个或多个)处理器1310可以被配置为：基于分析模型的输出，打开/关闭设备，激活设备附近的安灯(andon)以标记工头(foreman)，实时调整设备的设置，等等。

详细描述的一些部分是根据计算机内的操作的算法和符号表示来呈现的。这些算法描述和符号表示是数据处理领域的技术人员用来向本领域其他技术人员传达其创新的本质的手段。算法是导致所需的最终状态或结果的一系列定义的步骤。在示例实现方式中，所执行的步骤需要对有形量进行物理操作以实现有形结果。

除非另有具体说明，否则根据讨论显而易见的是，应当理解，在整个描述中，使用诸如“过程”、“运算”、“计算”、“确定”、“显示”等术语的讨论可包括计算机系统或其他信息处理装置的动作和过程，这些装置将计算机系统的寄存器和存储器中表示为物理(电子)量的数据操纵和转化为类似地表示为计算机系统的存储器或寄存器中的物理量或其他信息的其他数据存储、传输或显示装置。

示例实现方式还可以涉及用于执行本文的操作的设备。该设备可以为所需目的而专门构造，或者它可包括一台或多台通用计算机，该计算机由一个或多个计算机程序选择性地激活或重新配置。这样的计算机程序可以存储在计算机可读介质中，例如计算机可读存储介质或计算机可读信号介质。计算机可读存储介质可涉及有形介质，例如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态设备和驱动器，或适合用于存储电子信息的任何其他类型的有形或非瞬态介质。计算机可读信号介质可包括诸如载波的介质。本文呈现的算法和显示与任何特定的计算机或其他设备没有内在关联。计算机程序可以涉及纯软件实现方式，这些实现方式包括执行所需的实现方式的操作的指令。

各种通用系统可以与根据本文的示例的程序和模块一起使用，或者可以证明构造用于执行所需的方法步骤的更专用的设备是方便的。此外，示例实现方式没有参照任何特定的编程语言来描述。应当理解，可以使用多种编程语言来实现本文所描述的示例实现方式的技术。(一种或多种)编程语言的指令可以由一个或多个处理装置执行，例如，中央处理单元(CPU)、处理器或控制器。

如本领域已知的，上述操作可以由硬件、软件或软件和硬件的某种组合来执行。示例实现方式的各个方面可以使用电路和逻辑设备(硬件)来实现，而其他方面可以使用存储在机器可读介质(软件)上的指令来实现，这些指令如果由处理器执行，将导致处理器执行用于进行本申请的实现方式的方法。此外，本申请的一些示例实现方式可以单独以硬件执行，而其他示例实现方式可以单独以软件执行。此外，所描述的各种功能可以在单个单元中执行，或者可以以任意数量的方式分布在多个组件中。在由软件执行时，这些方法可以由诸如通用计算机的处理器基于存储在计算机可读介质上的指令来执行。如果需要，可以将指令以压缩和/或加密格式存储在介质上。

此外，考虑到说明书和本申请的技术的实践，本申请的其他实施方式对于本领域技术人员来说将是显而易见的。所描述的示例实现方式的各个方面和/或组件可以单独使用或以任何组合使用。说明书和示例实现方式仅被视为示例，本申请的真实范围和精神由所附权利要求指示。

Claims

1.一种用于包括与多个设备相关联的多个传感器的系统的方法，对于从所述多个传感器接收到假设画布和元数据，所述方法包括：

生成多个元流水线阶段，所述多个元流水线阶段包括所述元数据和一个或多个阶段，所述一个或多个阶段中的每个阶段是基于所述元数据和所述假设画布按执行顺序堆叠的分析应用程序或机器学习应用程序；以及

对所述元数据按执行顺序执行所述多个元流水线阶段以生成用于所述系统的分析模型。

2.根据权利要求1所述的方法，还包括：执行强化学习过程，以选择所生成的多个元流水线阶段中的一些元流水线阶段以对所述元数据进行执行。

3.根据权利要求1所述的方法，其中，生成所述多个元流水线阶段包括：

转换所述假设画布，以通过使用自然语言处理来生成用于语义搜索的查询；

根据所述查询对元学习数据库执行语义搜索，以搜索与所述多个设备相关的一个或多个流水线；

从所述一个或多个流水线生成所述元流水线阶段；

管理储存库中的所述元流水线阶段，所述储存库被配置为：跟踪从所述元流水线阶段生成的学习模型、与所述学习模型相关联的元数据、以及在所述学习模型中相关联的元特征。

4.根据权利要求1所述的方法，还包括：

对照从所述假设画布中提取的一个或多个关键性能指标来评估所述分析模型；

基于所述评估修改所述多个元流水线阶段中的一个或多个元流水线阶段。

5.根据权利要求4所述的方法，其中，对所述元数据按执行顺序执行所述多个元流水线阶段以生成用于所述系统的分析模型，包括：生成具有从超参数策略中选择的不同超参数的多个候选分析模型，并且

其中，对照从所述假设画布中提取的一个或多个关键性能指标来评估所述分析模型，包括：对照从所述多个传感器接收到的传感器数据来评估所述多个候选分析模型，所述传感器数据是通过多臂老虎机方法通过所述多个候选分析模型处理过的；

其中，基于所述评估修改所述多个元流水线阶段中的一个或多个元流水线阶段，包括：

选择所述候选分析模型中的通过所述多臂老虎机方法使收集的奖励最大化的一个候选分析模型，作为所述分析模型；以及

根据所选择的一个候选分析模型，来修改所述多个流水线阶段中的所述一个或多个流水线阶段。

6.根据权利要求1所述的方法，还包括：通过在所述系统上部署所述分析模型，来控制所述多个设备中的一个或多个设备。

7.根据权利要求1所述的方法，其中，所述假设画布包括：识别所述多个传感器中的一些传感器以获得所述元数据的多个数据源、与所述系统相关联的假设、从所述假设预期的预测、以及与所述假设相关联的风险。

8.根据权利要求1所述的方法，还包括执行元学习过程，所述元学习过程被配置为：将来自不同的元数据和元特征、以及来自现有数据集和新数据集、及来自不同数据集的数据结构进行比较，以在所述新数据集上应用元流水线。

9.一种非瞬态计算机可读介质，其存储用于包括与多个设备相关联的多个传感器的系统的指令，对于从所述多个传感器接收到假设画布和元数据，所述指令包括：

10.根据权利要求9所述的非瞬态计算机可读介质，所述指令还包括：执行强化学习过程，以选择所生成的多个元流水线阶段中的一些元流水线阶段以对所述元数据进行执行。

11.根据权利要求9所述的非瞬态计算机可读介质，其中生成所述多个元流水线阶段包括：

从所述一个或多个流水线生成所述元流水线阶段；

12.根据权利要求9所述的非瞬态计算机可读介质，所述指令还包括：

13.根据权利要求9所述的非瞬态计算机可读介质，其中，对所述元数据按执行顺序执行所述多个元流水线阶段以生成用于所述系统的分析模型包括：生成具有从超参数策略中选择的不同超参数的多个候选分析模型，并且

14.根据权利要求9所述的非瞬态计算机可读介质，所述指令还包括：通过在所述系统上部署所述分析模型，来控制所述多个设备中的一个或多个设备。

15.根据权利要求9所述的非瞬态计算机可读介质，其中，所述假设画布包括识别所述多个传感器中的一些传感器以获得所述元数据的多个数据源、与所述系统相关联的假设、从所述假设预期的预测、以及与所述假设相关联的风险。

16.根据权利要求9所述的非瞬态计算机可读介质，所述指令还包括执行元学习过程，所述元学习过程被配置为：将来自不同的元数据和元特征、以及来自现有数据集和新数据集、以及来自不同数据集的数据结构进行比较，以在所述新数据集上应用元流水线。