CN111177200B - 一种数据处理系统及方法 - Google Patents
一种数据处理系统及方法 Download PDFInfo
- Publication number
- CN111177200B CN111177200B CN201911421978.4A CN201911421978A CN111177200B CN 111177200 B CN111177200 B CN 111177200B CN 201911421978 A CN201911421978 A CN 201911421978A CN 111177200 B CN111177200 B CN 111177200B
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- processed
- processing
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据处理系统及方法,该数据处理系统包括:接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;推断模块,用于推断所述待处理数据集的类型信息;第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理。根据本发明的实施例,可以简化数据处理过程,并可以提高数据准备的适用性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理系统及数据处理方法。
背景技术
大数据挖掘和分析的成功往往取决于数据准备。目前对于数据准备,常采用人工直接对相应数据进行处理。然而,由于人工处理的局限性等原因,造成现有数据准备方式的适用性较差、效率较低。
发明内容
本发明实施例提供一种数据处理系统及方法,以解决现有数据准备方式的适用性较差、效率较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种数据处理系统,包括:
接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;
推断模块,用于推断所述待处理数据集的类型信息;
第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;
处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
可选的,所述系统还包括:
第二确定模块,用于从所述待处理数据集中确定目标数据集;
所述第一确定模块具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
可选的,所述第一确定模块包括:
第一推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第一确定单元,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
可选的,所述接口模块还用于:接收用户在策略界面上的第二输入操作;
所述第一确定模块包括:
第二推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第二确定单元,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
可选的,所述接口模块还用于:接收用户在策略界面上的第二输入操作;
所述第一确定模块具体用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
可选的,所述系统还包括:
显示模块,用于显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
可选的,所述类型信息包括以下至少一项:
所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
可选的,所述推断模块具体用于:
基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
可选的,所述推断模块包括:
调用单元,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
第一推断单元,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
可选的,所述推断模块包括:
第二推断单元,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
可选的,所述第二推断单元包括:
处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
可选的,所述领域模型为相应领域下的数据集的结构规则或者模板。
可选的,所述目标数据处理策略包括以下至少一项:
数据质量处理策略;
数据衍生处理策略;
合并数据集;
去除冗余列。
可选的,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
可选的,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
可选的,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
可选的,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
可选的,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
可选的,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
第二方面,本发明实施例提供了一种数据处理方法,包括:
接收用户在数据集界面上的第一输入操作,得到待处理数据集;
推断所述待处理数据集的类型信息;
基于所述待处理数据集的类型信息,确定目标数据处理策略;
利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
可选的,所述基于所述待处理数据集的类型信息,确定目标数据处理策略之前,所述方法还包括:
从所述待处理数据集中确定目标数据集;
所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:
基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
可选的,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
可选的,所述方法还包括:
接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;
或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
可选的,所述方法还包括:
接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
可选的,所述方法还包括:
显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
可选的,所述类型信息包括以下至少一项:
所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
可选的,所述推断所述待处理数据集的类型信息,包括:
基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
可选的,所述推断所述待处理数据集的类型信息,包括:
基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
可选的,所述推断所述待处理数据集的类型信息,包括:
基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
可选的,所述基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型,包括:
在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
可选的,所述领域模型为相应领域下的数据集的结构规则或者模板。
可选的,所述目标数据处理策略包括以下至少一项:
数据质量处理策略;
数据衍生处理策略;
合并数据集;
去除冗余列。
可选的,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
可选的,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
可选的,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
可选的,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
可选的,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
可选的,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
第三方面,本发明实施例提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时实现上述数据处理方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时可以实现上述数据处理方法的步骤。
在本发明实施例中,通过推断待处理数据集的类型信息,并基于此确定目标数据处理策略,利用该目标数据处理策略进行数据处理,可以简化数据处理过程,并且相比于通过人工进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机器学习)、业务分析、数据挖掘等。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理系统的结构示意图;
图2为本发明具体实例的数据集界面的示意图;
图3为本发明实施例提供的另一种数据处理系统的结构示意图;
图4为本发明实施例提供的另一种数据处理系统的结构示意图;
图5为本发明具体实例的一策略界面的示意图;
图6为本发明具体实例的目标数据表的选择界面示意图;
图7为本发明具体实例的另一策略界面的示意图;
图8为本发明实施例提供的一种数据处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本发明实施例提供的一种数据处理系统的结构示意图,如图1所示,该数据处理系统10可包括:
接口模块11,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集。
本实施例中,上述待处理数据集中的数据可为结构化数据或半结构化数据。需说明的是,本实施例中主要涉及的是结构化数据,此情况下的数据集可以称之为数据表。
可选的,该结构化数据或半结构化数据可以来源于文件类型数据源,或者,来源于数据库类型数据源。其中,文件类型数据源是指数据源为HDFS(Hadoop Distributed FileSystem,分布式文件系统),和/或,单机文件系统等文件系统。分布式文件系统文件格式可以包括但不限于:CSV、TSV、TXT、parquet、Excel、ORC等;单机文件系统文件格式可以包括但不限于:CSV、TSV、TXT、parquet、Excel等。数据库类型数据源是指数据源为DBMS(DatabaseManagement System,数据库管理系统),包括且不限于下述数据库至少之一:Oracle甲骨文数据库、DB2数据库、SQL Server数据库、MySQL数据库、PostgreSQL数据库、Hive数据库、Teredata数据库、Greenplum数据库、GaussDB数据库。
一种实施方式中,上述待处理数据集可为基于用户输入和/或系统自动选择的多个数据集。而该多个数据集可以是已创建的部分或全部数据集,进一步的也可以是某一领域的部分或全部数据集。比如,参见图2所示,此时得到待处理数据集的过程可为:数据集界面中指定区域(如图2左栏区域)显示已创建的数据集列表,通过接收用户针对于该已创建的数据集列表执行的选择操作,从该已创建的数据集列表中筛选出该选择操作指示的数据集,从而得到待处理数据集。
另一种实施方式中,上述待处理数据集可特指目标数据集。比如,基于用户预先指定的目标数据表,或者,系统默认推荐的目标数据表。
可选的,对于创建数据集,具体过程可为:数据集界面中包括新建数据集的创建控件,检测针对于该创建控件的操作,响应该操作,在数据集界面的一指定区域显示数据集创建界面,用户通过操作该数据集创建界面,创建新数据集。其中,用户通过操作该数据集创建界面,可以选择以上传方式将数据源中的数据导入到数据处理系统,进而创建一新数据集;或者,用户通过操作该数据集创建界面,可以选择将数据源的访问地址添加到该数据集创建界面,从而使得数据处理系统通过该访问地址,访问该数据源,进而创建一新数据集。需要说明的是,若选择以上传方式将数据源中的数据导入到该数据处理系统,进而实现新数据集的创建,在创建一新数据集之前,需要先将文件类型数据源和/或数据库类型数据源的数据以文件形式导出;然后,在创建新数据集时,用户可以通过拖拽方式,将该文件拖拽至数据集创建界面,以实现将文件上传至数据处理系统,完成新数据集的创建。其中,该导出的文件的文件格式可以包括但不限于下述至少之一:CSV、TSV、TXT、XLS、ZIP、TAR。
推断模块12,用于推断所述待处理数据集的类型信息。
第一确定模块13,用于基于所述待处理数据集的类型信息,确定目标数据处理策略。
处理模块14,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
在本发明实施例中,通过推断待处理数据集的类型信息,并基于此确定目标数据处理策略,利用该目标数据处理策略进行数据处理,可以简化数据处理过程,并且相比于通过人工进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机器学习)、业务分析、数据挖掘等。
本发明实施例中,数据处理系统可以推断出待处理数据集中每一数据集的整体业务类型,和/或待处理数据集中每一列数据的数据类型,其中该数据类型包括但不限于数据基础类型、业务类型等。上述推断模块12推断出的类型信息可以包括以下至少一项:
待处理数据集中每一数据集的业务类型;
待处理数据集中每一列数据的数据基础类型和/或业务类型。
其中,待处理数据集中每一数据集的业务类型(或称为整体业务类型)可以通过领域模型识别。该推断模块12具体可用于基于预设的领域模型,推断待处理数据集中每一数据集的业务类型。需指出的是,数据集可以基于领域分类,并基于系统(此表示本实施例中的数据处理系统,下同)默认推荐或用户选择领域。用户可以自定义调整数据集的业务类型。系统可以预置默认领域模型,不同的领域有不同的模型(比如数据表的模型)。例如,银行领域的模型包括下述至少之一:客户信息表、交易流水表、凭证表、验证码表等;电商领域的模型包括下述至少之一:用户表、会话表、交易表、日志表等;交通领域的模型包括下述至少之一:车辆表、违规违章表、人员表等。实际应用中,所述领域及领域模型可以不断扩展,例如基于用户设置进行扩展,即基于用户新设置的领域及其中的表构建领域模型。
一种实施方式中,所述领域模型可选为相应领域下的数据集(即数据表)的结构规则或者模板。例如,用户表的结构规则可包括:具体字段名包括哪些(例如用户标识ID、用户名称、用户注册日期等)、各字段数据基础类型的范畴及各字段业务类型的范畴等。
另一种实施方式中,在基于预设的领域模型推断待处理数据集的业务类型时,可以按照匹配程度排序推断出的业务类型,并优选给出一种最匹配的业务类型。
可选的,上述数据基础类型可包括下述至少之一:整型、长整型、浮点型、双精度类型、时间型(比如格式为:年月日时分秒、YYYY-mm-DD HH:MM:SS等)、字符串型、布尔类型等。上述列数据的业务类型可包括下述至少之一:电话号码(例如手机号码)、身份证号、邮编、时间长度、日期、金额、标识地理坐标中的点、标识WKT格式的地理线、多边形、标识英语国家名或ISO国家码、电子邮件(E-Mail)地址、温度、性别、尺寸、重量、用户自定义的业务类型等。
本发明实施例中,由于列数据的数据基础类型为数据本身的一种属性,列数据的业务类型为一种具有实际的业务含义的属性,因此,数据处理系统可以基于数据基础类型和业务类型对数据采用针对性的处理方法。可选的,由于每类数据基础类型对应的列数据的取值具有一定的取值条件,例如,对于数据基础类型为整型的数据,其列数据的取值条件为整数;对于数据基础类型为浮点型的数据,其列数据的取值条件为小数;对于数据基础类型为布尔型的数据,其列数据的取值为0或1,等等,因此,本申请可基于每类数据基础类型对应的列数据的取值条件,构造每类数据基础类型对应的类型推断函数,如此在实现推断待处理数据中的列数据对应的数据基础类型时,可以利用每类数据基础类型对应的构造函数,确定待处理数据集中每一列数据的数据基础类型。如图3所示,上述推断模块12可包括:
调用单元121,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
第一推断单元122,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
其中,上述用于调用各类型推断函数的预设顺序可以为数据处理系统默认的调用顺序,或者,还可以为用户基于用户需求设置的调用顺序。
可选的,由于列数据的业务类型具有实际的业务含义,结合其业务类型实际的业务含义,每种业务类型数据的取值具有一定的取值规则,因此,本申请针对于业务类型推断的实现提供一种可行方式,即:在推断列数据对应的业务类型时,基于业务类型的取值规则来推断相应业务类型。而对于一些复杂的数据集,为保证相对准确地推断出这些复杂数据的业务类型,本申请还可结合机器学习技术,利用机器学习模型对待处理数据集的列数据进行业务类型推断,即基于预先建立的多分类模型推断所述待处理数据集的列数据的业务类型。如图3所示,上述推断模块12还可包括:
第二推断单元123,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
其中,上述预先建立的多分类模型可以依据机器学习模型训练过程得到,主要包括两个阶段:数据准备阶段和模型训练阶段。数据准备阶段主要是获取大量的列数据,并且为这些列数据标注业务类型标签,该标注业务类型标签的大量列数据构成样本集,该样本集可以分成两部分,一部分作为训练样本集用于训练模型,另一部分作为测试样本集用于测试训练完成的训练模型。模型训练阶段即是利用训练样本集进行模型训练。
进一步地,由于列数据的数据基础类型和业务类型之间存在一定的关系,数据基础类型可以为业务类型的推断提供一定的先验信息,为了提高该多分类模型推断列数据的业务类型的速度和准确度,在执行基于预先建立的多分类模型推断列数据的业务类型时,具体包括:在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量(此处理为特征向量的方式可采用现有技术,本实施例不对此进行限制);然后,将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
也就是说,上述的第二推断单元123可以包括:
处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
本发明实施例中,在上述待处理数据集为待处理的多个数据集的情况下,为了明确处理策略,可以优先从待处理的多个数据集中确定目标数据集,并针对该目标数据集来确定目标数据处理策略。此外,目标数据集还可由数据处理系统默认推荐或用户预先指定。目标数据集的数量可以是多个,而针对每个目标数据集都可推荐相应的一个或多个数据处理策略。
可选的,如图4所示,所述数据处理系统还包括:
第二确定模块15,用于从所述待处理数据集中确定目标数据集。
进一步的,所述第一确定模块13具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
一种实施方式中,数据处理系统可以基于待处理数据集的整体业务类型,选定目标数据集。
另一种实施方式中,数据处理系统可以基于相应领域下的待处理数据集的领域模型的统计分析,选定目标数据集;比如基于数据集名称、数据集中字段等的统计分析给出相应的选择目标数据集的规则。
另一种实施方式中,数据处理系统可以基于语义分析选定目标数据集。具体的,可以利用预设的语义分析规则对数据集的名称进行语义分析,以确定目标数据集。比如,利用语义分析规则可以将名称为“交易表”的数据集确定为目标数据表,将名称为“交易详情表”的数据集确定为非目标数据表(例如,为辅助表)。
另一种实施方式中,数据处理系统可以基于用户的输入操作,选定目标数据集。
对于得到待处理数据集和对数据集进行数据类型推断的顺序,可以先得到待处理数据集,再数据类型推断;也可以先数据类型推断,再得到待处理数据集;也可以得到待处理数据集和数据类型推断同时进行,本实施例中不对此进行限制。而本实施例中优选先对已创建的数据集进行数据类型推断,再得到待处理数据集。
需说明的,本实施例中的数据处理系统可自动推荐多个数据处理策略,并基于用户选择或系统默认选择目标数据处理策略(比如最优策略)。一般情况下若用户不选择直接点击执行,则执行系统默认最优策略。在一种可能的实现方式中,所述方法还包括:通过策略界面的推荐策略管理区域展示至少一个数据处理策略;响应于用户在推荐策略管理区域的策略选取操作,将推荐策略管理区域中被选择的数据处理策略呈现于策略界面的目标策略管理区域;将呈现于目标策略管理区域的数据处理策略确定为用于处理所述待处理数据集的数据处理策略。例如参见图5所示的策略界面图中,左侧的推荐策略管理区域包括系统推荐策略和其他策略,右侧的目标策略管理区域包括用户选择的策略;具体的,左侧为系统推荐的策略和其他策略,右侧为用户选择的系统默认的1个最优策略。在用户点击展开该1个最优策略时,展示的策略包含多个步骤:异常行删除、自动填充空值、自动校正日期格式。
此外,用户还可以调整策略和/或自定义策略,并保存策略用于下次使用或供其他用户使用。具体的,系统可以提供一些基本的处理方法,例如上图5中的具体步骤,用户可以选择具体的步骤组成新的策略以自定义策略(具体的,可以为针对所述目标数据集的自定义策略),或者调整策略中的具体步骤以调整策略。
可选的,如图4所示,所述第一确定模块13可以包括:
第一推荐单元131,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第一确定单元132,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
这样,可以基于系统自动推荐得到最优策略,从而对数据进行最优处理。
可选的,所述接口模块11还可用于:接收用户在策略界面上的第二输入操作。如图4所示,所述第一确定模块13还可包括:
第二推荐单元133,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第二确定单元134,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
此外,当存在用户在策略界面上的第二输入操作时,所述第一确定模块13具体还可用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
可理解的,具体实现时,上述的第一推荐单元131和第二推荐单元133可以为同一个单元。这样,结合用户输入操作来选定目标数据处理策略,可以提高所选策略的有效性。
一种实施方式中,数据处理系统在推荐数据处理策略时,所依据的内容包括但不限于以下至少一项:目标数据集的整体业务类型、目标数据集中唯一列(这唯一列中每一行的值不同,可由系统自动识别)的业务类型、各个待处理的数据集中每一列数据的数据基础类型和/或业务类型。
进一步的,如图4所示,所述数据处理系统10还可包括:
显示模块16,用于显示以下至少一项:待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系等。
其中,该推荐的数据处理策略中的字段信息包括但不限于:字段名称、字段含义、字段的计算方法等。该推荐的数据处理策略中的数据血缘关系包括但不限于:数据集级别的数据血缘关系、字段级别的数据血缘关系等。这样,可以便于用户了解所需的策略以及相关信息。
本发明实施例中,对于系统推荐的数据处理策略,可至少包括两类:一类是用于提升数据质量(数据质量处理),即简单的进行数据处理,比如对某一列基于中位数进行缺失值填充、对某一列中的空白值所在行进行丢弃等;另一类是用于对数据进行衍生,即进行数据衍生处理,例如对日期列的拆分、按某个列的取值进行聚合等。此外,还可包括合并数据集、去除冗余列等。
可选的,所述目标数据处理策略包括以下至少一项:
数据质量处理策略;
数据衍生处理策略;
合并数据集;
去除冗余列。
其中,在所述目标数据处理策略包括数据质量处理策略、数据衍生处理策略和合并数据集的情况下,所述目标数据处理策略的执行顺序可包括但不限于以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
比如,本实施例中具体策略可包括:方案(1)先对各待处理数据集分别进行数据质量处理,再合并各处理后的数据集,再进行数据衍生处理(其中,数据衍生处理可以与合并各处理后的数据集同步进行);方案(2)先合并各数据集,再进行数据质量处理和数据衍生处理;方案(3)先进行数据质量处理和数据衍生处理,再合并各处理后的数据集。而本实施例优选方案(1)。
一种实施方式中,可以先基于列数据的数据类型和数据质量,推荐提升数据质量的策略步骤,再基于列数据的数据类型和可选的聚合函数,推荐用于衍生的策略步骤。其中,此方式中的列数据的数据类型可以只包括数据基础类型或业务类型,也可以包括数据基础类型和业务类型。
可选的,若上述的待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略还可以包括以下至少一项:
针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。其中作为主键字段的目标字段是可选的,可以为目标数据集中的唯一列字段,该唯一列字段中每一行的值唯一地标识相应数据集中的某一条记录。其中,利用主键字段作为连接字段(被合并的多个数据集中都有的字段),生成中间合并数据集或最终的合并数据集,根据目标数据处理策略确定提取的相关数据。
所述以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集,与针对所述目标数据集和/或所述第一数据集的数据衍生处理策略可以同步进行。
进一步的,所述数据质量处理策略可包括但不限于以下至少一项:空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理(比如向上取整、向下取整)、日期格式处理(比如格式统一处理)等。而所述数据衍生处理策略可包括但不限于以下至少一项:数值范围标记处理、日期提取处理(比如提取年、月、日等)、数据聚合处理等。
其中,所述数据聚合处理的方式可包括但不限于以下至少一项:Mean(计算某列数据的平均值)、Sum(计算某列数据的总和)、Count(计算某列数据的数量)、Max(计算某列数据的最大值)、Min(计算某列数据的最小值)、Variance(计算某列数据的方差)、StandardDeviation(计算某列数据的标准偏差)、Mode(计算某列数据的众数)、Median(计算某列数据的中位数)、Distinct(计算某列数据的非重复取值的数量)、四分位距(InterquartileRange,IQR,计算某列数据的四分差,此是描述统计学中的一种方法,以确定其中第三四分位数和第一四分位数的区别)等。
进一步的,所述合并数据集的方式可包括以下任意一项:join连接方式、union拼接方式。其中,通过join连接或union拼接可生成合并数据集(如大宽表),即生成单数据集,根据数据集的类型横向扩展或纵向拼接。对于join连接方式,是指根据连接字段(此指含义相同的字段,例如用户ID)将多个数据集合成一个数据集,即横向扩展(列变多了)。对于union拼接方式,是指选择多个数据集中相同类型的字段,纵向拼接合成一个数据集。可理解的,若几张表之间既有相同的字段又有不同的字段,且不同的字段数量较多,则进行join连接是比较有意义的,而若两张表的字段是相互包含关系,则进行union拼接是比较有意义的。
进一步的,所述去除冗余列的方式可包括以下任意一项:1)计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;2)对列数据进行主成分分析(Principal Component Analysis,PCA)降维,获取预设范围的列。其中,对于PCA降维的方式以及获取预设范围的列可参见现有方式,本实施例不对此进行限制。这样,借助计算列(字段)之间的关系来去除冗余列,可以避免维度爆炸的问题。
一种实施方式中,以交易表为例,该交易表包含的字段如下所示:交易ID、会话ID、交易时间、产品ID、交易额;则,系统推荐的提升数据质量的策略可包括:1)删除交易额为空的记录;2)将交易时间转换为统一的时间格式;3)将交易额转换为统一的货币单位;和/或,系统推荐的进行数据衍生的策略可包括:1)从交易时间提取星期作为新的列(比如新增星期一到星期日的7个列,列的值可以取为0和1标识一个交易发生在星期几);2)从交易时间提取1~24小时的时间段作为新的列(比如新增0、1~23共24个列,用0和1标识一个交易发生在哪个时间段);3)使用SUM聚合函数计算一周中每天的交易量、交易金额以及一天中每个时间段的交易量、交易金额。
需指出的是,在本实施例中,基于不同的数据类型,数据质量处理的方式和数据衍生处理的方式可以不同。其中,数据质量处理仅会改变数据的质量,并不会新增数据(例如新增列或行数)例如一列为数值列,存在空白值,则可以使用其他值的平均值或中位数来填充空白值。而数据衍生则会在原有数据集的基础上新增列、改变行的数量或新增辅助表,例如原有一列为日期,且格式为YYYY-MM-dd,则可以基于该列衍生出新的列,比如year、month、day、weekday等等。
此外,对于不同的数据类型,具体的数据处理方式也可以不同。比如缺失值填充:针对数值类型、类别类型等,缺失值填充处理方式不同。数据基础类型可包括数值类型、类别类型。所述数值类型包括下述之一的基础类型:整型、长整型、浮点型、双精度类型。所述类别类型可包括下述之一的基础类型:时间型、字符串型、布尔类型等,并且取值是有限个值。
对于合并数据集以及数据质量和/或衍生处理,可以先合并数据集,再执行数据质量和/或衍生处理,也可以先执行数据质量和/或衍生处理,再合并数据集;也可以合并数据集以及数据质量和/或衍生处理同步进行。
一种实施方式中,可首先对各数据表分别执行数据质量处理,例如空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空等;然后对处理后的数据表进行合并;最后根据策略进行进一步地数据处理,如数据衍生处理。
可选的,所述数据衍生处理策略可包括:基于待处理数据集或者处理后的合并数据集进行聚合处理,生成辅助数据集;其中,所述聚合处理具体可以为进行数据统计操作。上述数据衍生处理的过程可包括:基于多张数据表或者处理后的合并数据表进行聚合处理(例如统计操作),生成辅助表。比如,基于邮编统计地区,基于身份证号统计人,基于金额求和、求平均值等。
例如,基于聚合处理(例如统计操作)生成辅助表的示例可如下表1和表2所示。其中,表1为员工表的部分示例数据,各字段依次表示员工ID、部门ID、入职日期、离职日期。而通过聚合处理可以统计各个部门当前分别有多少人,如表2所示的统计结果(部分示例数据)。
表1
| 员工ID | 部门ID | 入职日期 | 离职日期 |
| 10001 | d001 | 2010/6/7 | 2015/6/7 |
| 10002 | d001 | 2010/6/8 | 9999/1/1 |
| 10003 | d001 | 2010/6/9 | 9999/1/1 |
| 10004 | d001 | 2010/6/10 | 9999/1/1 |
| 10005 | d002 | 2010/6/11 | 9999/1/1 |
| 10006 | d006 | 2010/6/12 | 9999/1/1 |
| 10007 | d007 | 2010/6/13 | 9999/1/1 |
| 10008 | d008 | 2010/6/14 | 9999/1/1 |
| 10009 | d002 | 2010/6/7 | 9999/1/1 |
| 10010 | d006 | 2010/6/8 | 9999/1/1 |
| 10011 | d007 | 2010/6/9 | 9999/1/1 |
| 10012 | d008 | 2010/6/10 | 9999/1/1 |
| 10013 | d002 | 2010/6/11 | 9999/1/1 |
| 10014 | d006 | 2010/6/12 | 9999/1/1 |
| 10015 | d007 | 2010/6/13 | 9999/1/1 |
| 10016 | d008 | 2010/6/14 | 9999/1/1 |
| 10017 | d002 | 2010/6/7 | 9999/1/1 |
| 10018 | d006 | 2010/6/8 | 9999/1/1 |
| 10019 | d007 | 2010/6/9 | 2019/10/21 |
| 10020 | d008 | 2010/6/10 | 2019/10/22 |
表2
下面结合表3至表11对本发明具体实例的数据处理过程进行说明。
本发明具体实例中,对应的数据处理过程可主要包括以下步骤:
S1:选定多张待处理数据表;如下所示表3~表7(仅为各表的部分示例数据)。
表3(会话表)
表4(用户表)
表5(交易表)
表6(日志表)
表7(商品详情表)
S2:数据处理系统(以下简称为:系统)对选定的数据表进行数据类型推断,包括每一张数据表的整体业务类型,以及每一张数据表中每一列数据的数据基础类型和业务类型。具体的,系统可推断或用户选择电商领域,并推断出每一张数据表的整体业务类型分别是:表3为会话表、表4为用户表、表5为交易表、表6为日志表和表7为商品详情表。
S3:系统推荐指定目标数据表。可选的,系统可以基于数据表的整体业务类型选定一个或多个目标数据表;或者,系统可以基于相应领域的统计分析选定推荐的目标数据表。例如,系统可以基于统计分析,选择出比较重要的、有意义的数据表作为目标数据表,比如在电商领域中因用户表比较重要则被选为目标数据表,而日志表不作为目标数据表。
S4:基于S2中数据类型推断的结果,系统针对各个目标数据表推荐对应的数据处理策略。
S5:基于S4中推荐的数据处理策略,选择目标数据处理策略后,进行数据处理。一种实施方式中,可首先对各个数据表分别进行数据质量处理提升每张表的数据质量,比如若数据表中有缺失数据,则进行数据填充;而若数据表中数据质量良好,则可以不用进行数据质量处理;然后多张数据表合并为一张宽表,其中需要有一个连接字段,系统自动识别某个唯一列作为连接字段,可以针对每一个唯一列生成一个宽表,并在合并数据表时同步地进行数据衍生,即生成的宽表为同时进行了数据衍生的数据表。
此外结合界面操作,本发明具体实例的数据处理过程可包括以下步骤:
步骤一:系统选定目标数据表。可选的,系统可在用户选择的多个待处理数据表中基于表的整体业务类型检测目标数据表,并给出检测出的目标数据表。用户也可以自定义选择目标数据表或调整系统推荐(自动选定)的目标数据表。
一种实施方式中,用于选定目标数据表的用户界面可以如图6所示(附图中目标表即目标数据表)。其中若考虑用户特征,可选定用户表作为目标数据表;若考虑会话特征,可选定会话表作为目标数据表;若考虑交易特征,可选定交易表作为目标数据表。此外还可由用户自定义目标数据表。
步骤二:针对选定的目标数据表,系统推荐相应的数据处理策略,进一步的用户可以选择目标数据处理策略(比如最优策略)。
一种实施方式中,以上述表4中用户表作为目标数据表为例,相应的界面图可如图7所示,左侧为系统推荐的最优策略、次优策略和其他策略,右侧为用户选择的系统默认的最优策略。其中最优策略包括以下步骤:①对于其中的邮编,检查并删除邮编中的异常值,包括按业务类型的处理:其具有有限个合法值,因此对于不合理的取值的记录进行删除;按数据基础类型处理:比如邮编是整型的,如果某个值为字符串类型的,则不正确,进行删除。②按业务类型的处理:将邮编使用实际地址进行替换,便于用户理解。③按业务类型的处理:检查注册日期是否合理并删除异常值,如果出现过早的日期(例如早于电商平台成立日期,不属于合理的日期范围),则是不正确的,需要将对应的记录删除。
可理解的,上述图7所示的策略仅为简单示例。针对表4中用户表作为目标数据表,与其他数据表的合并及进行数据处理等,具体的策略还可以包括以下多个步骤:
一、对于数据表中的邮编(例如用户表的邮编)执行如下处理:
1、检查并删除邮编中的异常值;
2、将邮编使用实际地址替换。
二、对于各个数据表中的日期执行如下处理:
1、检查不合理的日期;
2、删除不合理的日期对应的记录。
三、对于数据表中的商品ID(例如交易表的商品ID)执行如下处理:
1、删除不合理的ID(商品详情表中不存在即认为不合理);
2、使用实际的产品名称替换商品ID。
四、进行数据表的合并与数据衍生处理。比如,以用户表(目标数据表)中的用户ID字段(目标数据表的唯一列)作为主键字段,提取其他数据表中的相关信息进行表合并与数据衍生处理后的数据表可如下表8(其包含的部分字段)所示。其中,利用用户ID作为连接字段把用户表和会话表合并为中间合并数据表(即中间合并数据集),然后利用会话ID合并中间合并数据表和交易表,同步地进行数据衍生处理,得到最终的合并数据表。
表8
进一步的,本发明具体实例中还可以进行聚合处理生成辅助表。比如,针对上述表5中交易表作为目标数据表,基于聚合处理可以统计每种产品的销售额,统计结果可如下表9中所示:
表9
| product_id | Amount |
| 1 | 307.14 |
| 2 | 159.42 |
| 3 | 135.05 |
| 4 | 43.59 |
| 5 | 44.11 |
又比如,针对上述表3中会话表作为目标数据表,基于聚合处理可以统计每种设备的用户数量,统计结果可如下表10中所示:
表10
| Device | count_customer |
| Tablet | 3 |
| Mobile | 3 |
| Desktop | 4 |
又比如,针对上述表4中用户表作为目标数据表,基于聚合处理可以统计每个邮编(zip_code)的用户数量,统计结果可如下表11中所示:
表11
| Zip_code | count_customer |
| 60091 | 3 |
| 13244 | 2 |
上述实施例对本发明的数据处理系统进行了说明,下面将结合实施例和附图对本发明的数据处理方法进行说明。
参见图8所示,本发明实施例还提供了一种数据处理方法,所述方法包括如下步骤:
步骤801:接收用户在数据集界面上的第一输入操作,得到待处理数据集。
步骤802:推断所述待处理数据集的类型信息。
步骤803:基于所述待处理数据集的类型信息,确定目标数据处理策略。
步骤804:利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
在本发明实施例中,通过推断待处理数据集的类型信息,并基于此确定目标数据处理策略,利用该目标数据处理策略进行数据处理,可以简化数据处理过程,并且相比于通过人工定义策略进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机器学习)、业务分析、数据挖掘等。
可选的,所述步骤803之前,所述方法还包括:
从所述待处理数据集中确定目标数据集。
而所述步骤803包括:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
进一步的,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
可选的,所述方法还包括:
接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;
或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
可选的,所述方法还包括:
接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
可选的,所述方法还包括:
显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
可选的,所述类型信息包括以下至少一项:
所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
可选的,所述步骤802包括:基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
可选的,所述步骤802具体包括:
基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
可选的,所述步骤802具体包括:
基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
可选的,所述步骤802具体包括:
在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
可选的,所述领域模型为相应领域下的数据集的结构规则或者模板。
可选的,所述目标数据处理策略包括以下至少一项:
数据质量处理策略;
数据衍生处理策略;
合并数据集;
去除冗余列。
可选的,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
可选的,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
可选的,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
可选的,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
可选的,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
可选的,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
此外,本发明实施例还提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时可实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台数据处理系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (36)
1.一种数据处理系统,其特征在于,所述系统应用于大数据挖掘和分析中,所述系统包括:
接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;所述待处理数据集中的数据为结构化数据或半结构化数据;
推断模块,用于推断所述待处理数据集的类型信息;其中,所述待处理数据集的类型信息包括:数据基础类型和/或业务类型;
第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;
处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理;
其中,所述目标数据处理策略包括以下至少一项:
数据质量处理策略;
数据衍生处理策略;其中,所述数据衍生处理策略包括基于所述待处理数据集进行聚合处理,生成辅助数据集;
合并数据集;
去除冗余列;
其中,所述第一确定模块具体用于执行以下过程:
基于所述待处理数据集中的列数据的数据类型和数据质量,推荐提升数据质量的策略;
基于所述待处理数据集中的列数据的数据类型和预设的聚合函数,推荐用于进行数据衍生的策略;
其中,所述系统还包括:
显示模块,用于显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:
第二确定模块,用于从所述待处理数据集中确定目标数据集;
所述第一确定模块具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
3.根据权利要求2所述的系统,其特征在于,所述第一确定模块包括:
第一推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第一确定单元,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
4.根据权利要求2所述的系统,其特征在于,
所述接口模块还用于:接收用户在策略界面上的第二输入操作;
所述第一确定模块包括:
第二推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第二确定单元,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
5.根据权利要求2所述的系统,其特征在于,
所述接口模块还用于:接收用户在策略界面上的第二输入操作;
所述第一确定模块具体用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
6.根据权利要求1所述的系统,其特征在于,所述类型信息包括以下至少一项:
所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
7.根据权利要求6所述的系统,其特征在于,所述推断模块具体用于:
基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
8.根据权利要求6所述的系统,其特征在于,所述推断模块包括:
调用单元,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
第一推断单元,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
9.根据权利要求6所述的系统,其特征在于,所述推断模块包括:
第二推断单元,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
10.根据权利要求9所述的系统,其特征在于,所述第二推断单元包括:
处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
11.根据权利要求7所述的系统,其特征在于,所述领域模型为相应领域下的数据集的结构规则或者模板。
12.根据权利要求1所述的系统,其特征在于,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
13.根据权利要求1所述的系统,其特征在于,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
14.根据权利要求1或13所述的系统,其特征在于,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
15.根据权利要求1或13所述的系统,其特征在于,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
16.根据权利要求1所述的系统,其特征在于,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
17.根据权利要求1所述的系统,其特征在于,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
18.一种数据处理方法,其特征在于,所述方法应用于大数据挖掘和分析中,所述方法包括:
接收用户在数据集界面上的第一输入操作,得到待处理数据集;所述待处理数据集中的数据为结构化数据或半结构化数据;
推断所述待处理数据集的类型信息;其中,所述待处理数据集的类型信息包括:数据基础类型和/或业务类型;
基于所述待处理数据集的类型信息,确定目标数据处理策略;
利用所述目标数据处理策略,对所述待处理数据集进行数据处理;
其中,所述目标数据处理策略包括以下至少一项:
数据质量处理策略;
数据衍生处理策略;其中,所述数据衍生处理策略包括基于所述待处理数据集进行聚合处理,生成辅助数据集;
合并数据集;
去除冗余列;
其中,所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:
基于所述待处理数据集中的列数据的数据类型和数据质量,推荐提升数据质量的策略;
基于所述待处理数据集中的列数据的数据类型和预设的聚合函数,推荐用于进行数据衍生的策略;
其中,所述方法还包括:
显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
19.根据权利要求18所述的方法,其特征在于,所述基于所述待处理数据集的类型信息,确定目标数据处理策略之前,所述方法还包括:
从所述待处理数据集中确定目标数据集;
所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:
基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
20.根据权利要求19所述的方法,其特征在于,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
21.根据权利要求19所述的方法,其特征在于,所述方法还包括:
接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;
或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
22.根据权利要求19所述的方法,其特征在于,所述方法还包括:
接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
23.根据权利要求18所述的方法,其特征在于,所述类型信息包括以下至少一项:
所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
24.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:
基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
25.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:
基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
26.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:
基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
27.根据权利要求26所述的方法,其特征在于,所述基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型,包括:
在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
28.根据权利要求24所述的方法,其特征在于,所述领域模型为相应领域下的数据集的结构规则或者模板。
29.根据权利要求18所述的方法,其特征在于,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
30.根据权利要求18所述的方法,其特征在于,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
31.根据权利要求18或30所述的方法,其特征在于,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
32.根据权利要求18或30所述的方法,其特征在于,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
33.根据权利要求18所述的方法,其特征在于,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
34.根据权利要求18所述的方法,其特征在于,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
35.一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求18至34中任一项所述的数据处理方法的步骤。
36.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求18至34中任一项所述的数据处理方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911421978.4A CN111177200B (zh) | 2019-12-31 | 2019-12-31 | 一种数据处理系统及方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201911421978.4A CN111177200B (zh) | 2019-12-31 | 2019-12-31 | 一种数据处理系统及方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111177200A CN111177200A (zh) | 2020-05-19 |
| CN111177200B true CN111177200B (zh) | 2021-05-11 |
Family
ID=70657648
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201911421978.4A Active CN111177200B (zh) | 2019-12-31 | 2019-12-31 | 一种数据处理系统及方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111177200B (zh) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113806356B (zh) * | 2020-06-16 | 2024-03-19 | 中国移动通信集团重庆有限公司 | 数据识别方法、装置及计算设备 |
| CN111881146B (zh) * | 2020-09-28 | 2020-12-15 | 南京吉拉福网络科技有限公司 | 用于收取费用的方法、计算设备和介质 |
| CN112711591B (zh) * | 2020-12-31 | 2021-10-08 | 天云融创数据科技(北京)有限公司 | 基于知识图谱的字段级的数据血缘确定方法及装置 |
| CN112765259A (zh) * | 2021-01-20 | 2021-05-07 | 青岛海信网络科技股份有限公司 | 一种地铁线网中心的数据处理方法及装置 |
| CN113568895A (zh) * | 2021-02-01 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 数据库的数据处理方法、装置、电子设备 |
| CN114511370A (zh) * | 2021-12-23 | 2022-05-17 | 上海群之脉信息科技有限公司 | 一种数据处理智能系统 |
| CN114610728A (zh) * | 2021-12-24 | 2022-06-10 | 亚信科技(中国)有限公司 | 一种实时处理数据的方法、装置、设备、介质及产品 |
| CN114547285B (zh) * | 2022-03-03 | 2023-03-24 | 创新奇智(浙江)科技有限公司 | 表格数据含义推断方法、装置、计算机设备和存储介质 |
| CN115910251A (zh) * | 2022-11-08 | 2023-04-04 | 北京京东拓先科技有限公司 | 一种处理医疗数据的方法和装置 |
| CN116701454B (zh) * | 2023-05-22 | 2025-08-19 | 中国电信股份有限公司 | 管道式同步缓存方法、装置、设备、存储介质和程序产品 |
| CN116820384B (zh) * | 2023-08-28 | 2023-11-10 | 北京睿企信息科技有限公司 | 一种确定数据处理顺序的数据处理系统 |
| CN117078139B (zh) * | 2023-10-16 | 2024-02-09 | 国家邮政局邮政业安全中心 | 跨境快递的监管方法、系统、电子设备以及存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103326885A (zh) * | 2013-06-04 | 2013-09-25 | 新浪网技术(中国)有限公司 | 一种报警信息的处理方法及装置 |
| CN103902567A (zh) * | 2012-12-26 | 2014-07-02 | 联想(北京)有限公司 | 数据处理的方法、装置及系统 |
| CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
| CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
| CN110287219A (zh) * | 2019-06-28 | 2019-09-27 | 北京九章云极科技有限公司 | 一种数据处理方法及系统 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8983982B2 (en) * | 2009-12-22 | 2015-03-17 | Bmc Software, Inc. | Mechanism for deprecating object oriented data |
| US9558220B2 (en) * | 2013-03-04 | 2017-01-31 | Fisher-Rosemount Systems, Inc. | Big data in process control systems |
| EP3449414B1 (en) * | 2016-04-29 | 2021-12-08 | Privitar Limited | Computer-implemented privacy engineering system and method |
| US10671032B2 (en) * | 2016-10-17 | 2020-06-02 | Fisher-Rosemount Systems, Inc. | Methods and systems for streaming process control data to remote devices |
| US10977434B2 (en) * | 2017-07-11 | 2021-04-13 | Asana, Inc. | Database model which provides management of custom fields and methods and apparatus therfor |
| CN110162556A (zh) * | 2018-02-11 | 2019-08-23 | 陕西爱尚物联科技有限公司 | 一种有效发挥数据价值的方法 |
-
2019
- 2019-12-31 CN CN201911421978.4A patent/CN111177200B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103902567A (zh) * | 2012-12-26 | 2014-07-02 | 联想(北京)有限公司 | 数据处理的方法、装置及系统 |
| CN103326885A (zh) * | 2013-06-04 | 2013-09-25 | 新浪网技术(中国)有限公司 | 一种报警信息的处理方法及装置 |
| CN107103050A (zh) * | 2017-03-31 | 2017-08-29 | 海通安恒(大连)大数据科技有限公司 | 一种大数据建模平台及方法 |
| CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
| CN110287219A (zh) * | 2019-06-28 | 2019-09-27 | 北京九章云极科技有限公司 | 一种数据处理方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111177200A (zh) | 2020-05-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111177200B (zh) | 一种数据处理系统及方法 | |
| AU2017359472B2 (en) | Systems and methods for determining relationships among data elements | |
| US10747762B2 (en) | Automatic generation of sub-queries | |
| CN109299090B (zh) | 基金中心度计算方法、系统、计算机设备和存储介质 | |
| CN110795524B (zh) | 主数据映射处理方法、装置、计算机设备及存储介质 | |
| US11567915B2 (en) | Maintaining a dataset based on periodic cleansing of raw source data | |
| US11379466B2 (en) | Data accuracy using natural language processing | |
| CN111178005B (zh) | 数据处理系统、方法及存储介质 | |
| US20160132496A1 (en) | Data filtering | |
| Xie et al. | Big data validation case study | |
| CN106126221A (zh) | 一种表单生成方法、装置和系统 | |
| CN109408704B (zh) | 基金数据关联方法、系统、计算机设备和存储介质 | |
| US20140101159A1 (en) | Knowledgebase Query Analysis | |
| US9910924B2 (en) | Disambiguation of online social mentions | |
| CN120296126A (zh) | 一种基于大模型的智能数据查询方法、设备及介质 | |
| CN109165238B (zh) | 一种用于生成周期指标数据的数据处理方法及装置 | |
| CN117076770A (zh) | 基于图计算的数据推荐方法、装置、存储价值及电子设备 | |
| CN116911982A (zh) | 金融信贷用户的筛选方法、装置以及电子设备 | |
| US20220147572A1 (en) | Custom data filtering systems and methods | |
| CN116881246A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
| US20160307207A1 (en) | Analytical Functionality Selecting Relevant Market Research Data for Global Reporting | |
| US11886485B1 (en) | Computer-implemented visual query matching methods, and systems for implementing thereof | |
| CN117454017B (zh) | 课程推荐方法、设备及存储介质 | |
| US20250278675A1 (en) | Maching learning systems | |
| US12039267B2 (en) | Automated categorization of data by generating unity and reliability metrics |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |