CN117574915A - 基于多方数据源的公共数据平台及其数据分析方法 - Google Patents
基于多方数据源的公共数据平台及其数据分析方法 Download PDFInfo
- Publication number
- CN117574915A CN117574915A CN202311655505.7A CN202311655505A CN117574915A CN 117574915 A CN117574915 A CN 117574915A CN 202311655505 A CN202311655505 A CN 202311655505A CN 117574915 A CN117574915 A CN 117574915A
- Authority
- CN
- China
- Prior art keywords
- semantic
- user information
- training
- data
- topological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于多方数据源的公共数据平台及其数据分析方法,其通过获取由政府公共平台提供的针对于被分析客户的用户数据,并在后端引入数据处理和语义分析算法来进行用户数据的语义分析和理解,从而通过分析政府公共平台提供的客户数据,可以了解客户的养老需求、收入水平、风险承受能力等个体特征。基于这些信息,可以为每个客户推荐适合其需求和目标的个人养老金账户,实现个性化的服务和建议。
Description
技术领域
本申请涉及数据分析领域,且更为具体地,涉及一种基于多方数据源的公共数据平台及其数据分析方法。
背景技术
随着信息技术的发展和互联网的普及,数据成为了各个领域中不可或缺的资源。公共数据平台是一个提供数据整合、共享和分析的平台,旨在满足不同用户的数据需求,并促进数据的开放和共享。
然而,传统的公共数据平台往往只能整合和管理特定领域或组织内部的数据,无法提供多方数据源的广泛覆盖,导致数据孤岛的问题。这意味着不同组织和部门的数据无法有效地集成和共享,限制了数据的全面性和可用性。当基金公司在了解客户需求、偏好和行为特征时,无法获得全面和准确的数据支持。
因此,期望一种基于多方数据源的公共数据平台的数据分析方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于多方数据源的公共数据平台及其数据分析方法,其通过获取由政府公共平台提供的针对于被分析客户的用户数据,并在后端引入数据处理和语义分析算法来进行用户数据的语义分析和理解,从而通过分析政府公共平台提供的客户数据,可以了解客户的养老需求、收入水平、风险承受能力等个体特征。基于这些信息,可以为每个客户推荐适合其需求和目标的个人养老金账户,实现个性化的服务和建议。
根据本申请的一个方面,提供了一种基于多方数据源的公共数据平台的数据分析方法,其包括:
获取由政府公共平台提供的针对于被分析客户的用户数据;
对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列;
对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵;
对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征;以及
基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。
根据本申请的另一个方面,提供了一种基于多方数据源的公共数据平台,其包括:
数据获取模块,用于获取由政府公共平台提供的针对于被分析客户的用户数据;
语义理解模块,用于对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列;
语义一致性关联分析模块,用于对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵;
关联编码模块,用于对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征;以及
结果生成模块,用于基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。
与现有技术相比,本申请提供的一种基于多方数据源的公共数据平台及其数据分析方法,其通过获取由政府公共平台提供的针对于被分析客户的用户数据,并在后端引入数据处理和语义分析算法来进行用户数据的语义分析和理解,从而通过分析政府公共平台提供的客户数据,可以了解客户的养老需求、收入水平、风险承受能力等个体特征。基于这些信息,可以为每个客户推荐适合其需求和目标的个人养老金账户,实现个性化的服务和建议。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的流程图;
图2为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的系统架构图;
图3为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的训练阶段的流程图;
图4为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的子步骤S2的流程图;
图5为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的子步骤S3的流程图;
图6为根据本申请实施例的基于多方数据源的公共数据平台的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
传统的公共数据平台往往只能整合和管理特定领域或组织内部的数据,无法提供多方数据源的广泛覆盖,导致数据孤岛的问题。这意味着不同组织和部门的数据无法有效地集成和共享,限制了数据的全面性和可用性。当基金公司在了解客户需求、偏好和行为特征时,无法获得全面和准确的数据支持。因此,期望一种基于多方数据源的公共数据平台的数据分析方案。
在公共数据平台中,政府、第三方机构和基金公司等各方都积累了大量的数据资源,包括用户信息、交易记录、社会经济数据等。这些数据源的整合和分析可以为基金公司提供有价值的洞察,帮助他们更好地了解客户需求、优化营销策略和提升服务质量。基于此,在本申请的技术方案中,提出了一种基于多方数据源的公共数据平台,其是指一个能够整合政府、第三方机构和基金公司自身的数据资源,为基金公司提供精准营销的解决方案的平台。这种平台的目的是利用数据分析和挖掘技术,帮助基金公司了解客户的需求、偏好和行为特征,从而制定更有效的营销策略和活动。这种平台的优势在于能够充分利用多方数据源的互补性,提高数据的质量和覆盖度,同时保障数据的安全性和合规性。
在本申请的技术方案中,提出了一种基于多方数据源的公共数据平台的数据分析方法。图1为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的流程图。图2为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的系统架构图。如图1和图2所示,根据本申请的实施例的基于多方数据源的公共数据平台的数据分析方法,包括步骤:S1,获取由政府公共平台提供的针对于被分析客户的用户数据;S2,对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列;S3,对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵;S4,对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征;以及,S5,基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。
特别地,在步骤S1中,获取由政府公共平台提供的针对于被分析客户的用户数据。应可以理解,政府公共平台通常拥有大量的客户数据,这些数据经过严格的收集和管理,具有较高的可靠性。基于这些数据进行分析和推荐,可以提供准确和可信的建议。并且,政府公共平台在养老金领域具有重要的支持和监管作用。因此,需要基于政府平台提供的用户数据进行个人养老金账户的推荐,以确保符合相关政策和法规,并获得政府的认可和支持。在一个示例中,所述用户数据可以包括个人养老金账户的开户情况、购买额度以及购买过的金融产品等。
特别地,在步骤S2中,对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列。特别地,在本申请的一个具体示例中,如图4所示,所述S2,包括:S21,对所述用户数据进行数据清洗和分词处理以得到用户信息描述词的序列;以及,S22,将所述用户信息描述词的序列通过包含词嵌入层的上下文编码器以得到所述用户信息描述词上下文语义特征向量的序列。
具体地,所述S21,对所述用户数据进行数据清洗和分词处理以得到用户信息描述词的序列。应可以理解,由于原始的用户数据通常包含噪声、冗余和不一致性。因此,在进行所述用户数据的语义理解前需要对其进行数据清洗,通过数据清洗过程,可以去除无效或错误的数据,保证数据的质量和准确性。也就是说,清洗后的数据更具可信度,能够提供更准确的分析结果。接着,在进行用户数据清洗后,对清洗后的所述用户数据进行分词处理以得到用户信息描述词的序列。在文本数据中,分词是将连续的文本划分为有意义的词语的过程。将所述用户数据进行分词处理可以将连续的文本转化为离散的词语序列,方便后续的文本分析和特征提取。通过分词处理,可以将用户信息描述拆分成更小的语义单元,以便更好地理解和分析用户的需求、偏好和行为特征。
相应的,在一种可能的实现方案中,可通过以下步骤对所述用户数据进行数据清洗和分词处理以得到用户信息描述词的序列,例如:对用户提供的数据进行清洗,去除不必要的字符、标点符号、HTML标签或其他噪声。这可以通过使用正则表达式或专门的文本清洗工具来实现;将清洗后的文本数据进行分词处理,将句子或段落拆分成单词或词组。分词可以帮助我们理解文本的基本单位,并为后续步骤提供输入。对分词后的结果进行停用词移除,去除那些在语义上没有太多信息的常见词汇;从经过停用词移除的分词结果中提取用户信息描述词。这可以通过关键词提取算法或基于规则的方法来实现。关键词提取算法会根据词语的频率和重要性对词语进行排序,选择排名靠前的词语作为描述词;将提取到的用户信息描述词按照一定的顺序组成序列。这可以简单地将词语按照出现的顺序排列,或者根据词语之间的关联性进行排序。这个序列可以作为用户信息的特征表示。
具体地,所述S22,将所述用户信息描述词的序列通过包含词嵌入层的上下文编码器以得到所述用户信息描述词上下文语义特征向量的序列。也就是,将所述用户信息描述词的序列通过包含词嵌入层的上下文编码器中进行编码,以提取出所述用户数据中的各个词基于全局的上下文语义关联特征信息,从而得到用户信息描述词上下文语义特征向量的序列。更具体地,使用所述包含词嵌入层的上下文编码器的嵌入层分别将所述词序列中各个词映射为词嵌入向量以得到词嵌入向量的序列;使用所述包含词嵌入层的上下文编码器的转换器对所述词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到多个全局上下文语义特征向量;以及,将所述多个全局上下文语义特征向量进行级联以得到所述用户信息描述词上下文语义特征向量的序列。
值得注意的是,包含词嵌入层的上下文编码器是一种用于文本处理的模型,它将输入的文本序列转换为连续向量表示。这种模型常用于词语、句子或文档级别的语义表示和文本分类任务。下面是一个基本的包含词嵌入层的上下文编码器的概念:词嵌入层:这是模型的第一层,将每个词语映射为一个固定长度的向量表示,也称为词嵌入。词嵌入可以捕捉词语之间的语义关系,使得语义相似的词在向量空间中距离较近;上下文编码层:在词嵌入层之后,通常会使用一层或多层的循环神经网络(如LSTM或GRU)或卷积神经网络(CNN)来编码词嵌入的上下文信息。这些层可以捕捉词语之间的顺序关系和句子结构,生成上下文感知的表示;输出层:根据具体任务的需求,可以在上下文编码层之后添加输出层。例如,对于文本分类任务,可以使用全连接层将上下文编码转换为预测类别的概率分布。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列,例如:首先,需要对用户提供的数据进行分析。这可能包括用户的个人信息、养老金账户的相关信息以及其他必要的细节。这些数据可以是用户提供的文本或结构化数据;使用自然语言处理技术对用户数据进行语义理解。这包括词法分析、句法分析和语义分析等步骤,以理解用户提供数据的含义和上下文;在语义理解的基础上,提取用户信息描述词。这些描述词可以是与个人养老金账户相关的关键词、短语或实体。例如,"个人养老金账户"、"开户情况"等;根据用户信息描述词,构建上下文语义特征向量的序列。这可以通过将每个描述词转换为向量表示,并按照一定的顺序组成序列。常用的方法包括词嵌入技术(如Word2Vec、GloVe等)或预训练的语言模型;生成的上下文语义特征向量序列可以用于各种应用,如信息检索、文本分类、语义匹配等。根据具体任务的需求,可以使用机器学习算法或深度学习模型对序列进行进一步处理和分析。
特别地,在步骤S3中,对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵。特别地,在本申请的一个具体示例中,如图5所示,所述S3,包括:S31,计算所述用户信息描述词上下文语义特征向量的序列中任意两个用户信息描述词上下文语义特征向量之间的余弦相似度以得到词粒度语义一致性拓扑矩阵;以及,S32,将所述词粒度语义一致性拓扑矩阵通过基于卷积神经网络模型的语义一致性拓扑特征提取器以得到所述词粒度语义一致性拓扑特征矩阵。
具体地,所述S31,计算所述用户信息描述词上下文语义特征向量的序列中任意两个用户信息描述词上下文语义特征向量之间的余弦相似度以得到词粒度语义一致性拓扑矩阵。在文本数据分析中,为了衡量用户信息描述词之间的语义关系和相似度,以此来更为准确地对于用户信息基于词粒度的语义关联分析,从而进一步提高向客户推荐个人养老金账户的精准度,在本申请的技术方案中,需要进一步计算所述用户信息描述词上下文语义特征向量的序列中任意两个用户信息描述词上下文语义特征向量之间的余弦相似度以得到词粒度语义一致性拓扑矩阵。通过计算所述各个用户信息描述词上下文语义特征向量之间的余弦相似度,可以衡量词语之间的语义相似性关联关系,即词语在语义空间中的相似程度。特别地,这里,所述词粒度语义一致性拓扑矩阵可以反映用户信息描述词之间的相似性和关联程度。在这个拓扑矩阵中,相似的词语会具有较高的相似度值,而不相似的词语则会具有较低的相似度值。通过分析该拓扑矩阵,可以揭示用户信息描述词之间的关系和群组结构,为后续的数据挖掘和分析提供更多的信息。
具体地,所述S32,将所述词粒度语义一致性拓扑矩阵通过基于卷积神经网络模型的语义一致性拓扑特征提取器以得到所述词粒度语义一致性拓扑特征矩阵。也就是,将所述词粒度语义一致性拓扑矩阵通过基于卷积神经网络模型的语义一致性拓扑特征提取器中进行特征挖掘,以提取出所述词粒度语义一致性拓扑矩阵中的各个位置值之间的关联特征信息,即所述用户信息中的各个描述词之间的一致性拓扑关联特征信息,从而得到词粒度语义一致性拓扑特征矩阵。应可以理解,由于所述词粒度语义一致性拓扑矩阵反映了用户信息描述词之间的相似性和关联程度。然而,这个矩阵可能非常稀疏,且包含大量的冗余信息。因此,通过使用所述基于卷积神经网络的语义一致性拓扑特征提取器,可以从所述词粒度语义一致性拓扑矩阵中提取更有意义的特征。这些特征可以捕捉到所述用户信息描述词之间的更高级别的语义关系,有利于更好地理解用户需求和行为特征。更具体地,使用所述基于卷积神经网络模型的语义一致性拓扑特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于卷积神经网络模型的语义一致性拓扑特征提取器的最后一层的输出为所述词粒度语义一致性拓扑特征矩阵,所述基于卷积神经网络模型的语义一致性拓扑特征提取器的第一层的输入为所述词粒度语义一致性拓扑矩阵。
值得注意的是,卷积神经网络(CNN)是一种深度学习模型,广泛应用于计算机视觉和自然语言处理等领域。CNN主要用于处理具有网格结构的数据,如图像和文本。CNN的核心思想是通过卷积层、池化层和全连接层来提取和学习输入数据的特征表示。下面是CNN的基本组成部分:卷积层:卷积层是CNN的核心部分。它使用一组可学习的过滤器(也称为卷积核)来对输入数据进行卷积操作。卷积操作可以提取图像或文本中的局部特征,通过滑动窗口方式在输入数据上进行计算。每个过滤器会生成一个特征映射,表示输入数据中的某种特征;激活函数:在卷积层之后,通常会应用一个非线性激活函数,如ReLU,以引入非线性变换。激活函数可以增加网络的表达能力,并帮助模型学习复杂的特征;池化层:池化层用于减小特征映射的空间尺寸,并保留重要的特征。常用的池化操作包括最大池化和平均池化。池化操作可以减少参数数量,提高模型的计算效率,并对输入数据的平移不变性提供一定的鲁棒性;全连接层:在经过多个卷积层和池化层之后,通常会在CNN的最后添加一些全连接层。全连接层将之前的特征映射展平为一维向量,并通过全连接操作连接到输出层,用于进行最终的分类或回归预测。
值得一提的是,在本申请的其他具体示例中,还可以通过其他方式对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵,例如:收集用户信息描述词的数据集,并使用适当的预处理技术(如分词、去除停用词等)对用户信息描述词进行处理;使用预训练的词嵌入模型(如Word2Vec、GloVe等)将每个用户信息描述词转换为向量表示。这些词向量捕捉了词语之间的语义关系;计算用户信息描述词之间的语义相似度或相关性。可以使用词向量之间的余弦相似度或其他相似度度量方法来评估词语之间的语义相似性;基于语义相似度或相关性的阈值,确定语义一致性的关联关系,并构建一个词粒度的语义一致性拓扑特征矩阵。矩阵中的每个元素表示两个词之间的语义一致性得分或关联强度;对生成的语义一致性拓扑特征矩阵进行分析和应用。例如,可以使用图论算法分析矩阵中的拓扑结构,识别关键词、聚类相关词汇或进行图网络分析等。
特别地,在步骤S4中,对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征。在本申请的技术方案中,将所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵通过图神经网络模型以得到语义拓扑用户信息全局语义特征矩阵作为所述用户信息全局语义拓扑关联特征。也就是,以所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量作为节点的特征表示,而以所述词粒度语义一致性拓扑特征矩阵作为节点与节点之间的边的特征表示,将由所述多个用户信息描述词上下文语义特征向量经二维排列得到的用户信息描述词上下文语义特征矩阵和所述词粒度语义一致性拓扑特征矩阵通过图神经网络模型以得到语义拓扑用户信息全局语义特征矩阵。具体地,所述图神经网络模型通过可学习的神经网络参数对所述用户信息描述词上下文语义特征矩阵和所述词粒度语义一致性拓扑特征矩阵进行图结构数据编码以得到包含不规则的所述用户信息描述词之间的一致性拓扑关联特征和所述用户信息描述词的全局语义理解特征信息的所述语义拓扑用户信息全局语义特征矩阵。
值得注意的是,图神经网络(GNN)是一种用于处理图结构数据的机器学习模型。与传统的神经网络模型专注于处理向量和矩阵数据不同,GNN可以有效地处理非结构化的图数据,如社交网络、知识图谱和分子结构等。GNN的核心思想是通过学习节点之间的关系和局部邻域信息来进行节点特征的表示和学习。下面是GNN的基本组成部分:节点表示:GNN通过学习每个节点的表示向量来捕捉节点的特征。初始时,每个节点都有一个初始的特征向量表示。在每一轮的迭代中,GNN会更新节点的表示向量,将节点的邻居节点的信息进行聚合和融合,以更新当前节点的特征表示;图卷积层:图卷积层是GNN的核心层,用于在图数据上进行节点特征的更新和传播。图卷积层的计算过程通常涉及节点特征的聚合、邻居节点特征的合并和权重的更新。这些操作可以通过邻接矩阵和节点特征矩阵的乘积来实现;汇聚层:与传统的神经网络类似,GNN中也可以使用汇聚层对图数据进行降维和特征提取。汇聚层通常通过对节点或子图进行池化操作,将图数据的规模减小,并提取重要的全局特征;输出层:在经过多个图卷积层和汇聚层之后,GNN通常会在最后添加一个输出层,用于进行最终的预测或分类。输出层可以是全连接层、softmax层或其他适合任务的层。
特别地,在步骤S5中,基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。在本申请的技术方案中,将所述语义拓扑用户信息全局语义特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否向客户推荐个人养老金账户。也就是,利用所述用户信息中的各个描述词的语义理解特征和各个描述词间的语义一致性拓扑关联特征之间基于图结构的融合关联特征来进行分类处理,从而为每个客户推荐适合其需求和目标的个人养老金账户,实现个性化的服务和建议。具体地,将所述语义拓扑用户信息全局语义特征矩阵基于行向量或列向量展开为语义拓扑用户信息全局语义特征向量;使用所述分类器的多个全连接层对所述语义拓扑用户信息全局语义特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
应可以理解,在利用上述神经网络模型进行推断之前,需要对所述包含词嵌入层的上下文编码器、所述基于卷积神经网络模型的语义一致性拓扑特征提取器、所述图神经网络模型和所述分类器进行训练。也就是说,在本申请的基于多方数据源的公共数据平台的数据分析方法中,还包括训练阶段,用于对所述包含词嵌入层的上下文编码器、所述基于卷积神经网络模型的语义一致性拓扑特征提取器、所述图神经网络模型和所述分类器进行训练。
图3为根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法的训练阶段的流程图。如图3所示,根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法,包括:训练阶段,包括:S110,获取训练数据,所述训练数据包括被分析客户的训练用户数据,以及,所述是否向客户推荐个人养老金账户的真实值;S120,对所述训练用户数据进行数据清洗和分词处理以得到训练用户信息描述词的序列;S130,将所述训练用户信息描述词的序列通过所述包含词嵌入层的上下文编码器以得到训练用户信息描述词上下文语义特征向量的序列;S140,计算所述训练用户信息描述词上下文语义特征向量的序列中任意两个训练用户信息描述词上下文语义特征向量之间的余弦相似度以得到训练词粒度语义一致性拓扑矩阵;S150,将所述训练词粒度语义一致性拓扑矩阵通过所述基于卷积神经网络模型的语义一致性拓扑特征提取器以得到训练词粒度语义一致性拓扑特征矩阵;S160,将所述训练用户信息描述词上下文语义特征向量的序列和所述训练词粒度语义一致性拓扑特征矩阵通过所述图神经网络模型以得到训练语义拓扑用户信息全局语义特征矩阵;S170,对所述训练语义拓扑用户信息全局语义特征矩阵展开后得到的训练语义拓扑用户信息全局语义特征向量进行训练优化以得到优化训练语义拓扑用户信息全局语义特征向量;S180,将所述优化训练语义拓扑用户信息全局语义特征向量通过所述分类器以得到分类损失函数值;S190,基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含词嵌入层的上下文编码器、所述基于卷积神经网络模型的语义一致性拓扑特征提取器、所述图神经网络模型和所述分类器进行训练。
特别地,在本申请的技术方案中,所述训练用户信息描述词上下文语义特征向量的序列中的每个训练用户信息描述词上下文语义特征向量表示相应的用户信息描述词的上下文关联编码文本语义特征,由此,将其与所述训练词粒度语义一致性拓扑特征矩阵通过图神经网络模型后,可以进一步进行基于语义空间特征相似度拓扑的拓扑关联,也就是,所述训练语义拓扑用户信息全局语义特征矩阵同时包括用户信息描述词在多样化的语义空间上下文下的不同关联维度的特征表示,这样,在提升了所述训练语义拓扑用户信息全局语义特征矩阵在全语义空间内的特征表示的同时,也会由于不同语义空间下的上下文关联表示差异,以及所述训练语义拓扑用户信息全局语义特征矩阵与所述训练用户信息描述词上下文语义特征向量对应的特征向量,例如行特征向量的特征表示独立性,导致所述训练语义拓扑用户信息全局语义特征矩阵具有整体特征分布的较为显著的不一致和不稳定,从而影响所述训练语义拓扑用户信息全局语义特征矩阵通过分类器进行分类训练的稳定性。
基于此,本申请的申请人在将所述训练语义拓扑用户信息全局语义特征矩阵展开后得到的训练语义拓扑用户信息全局语义特征向量通过分类器进行分类训练时,在每次迭代时对所述训练语义拓扑用户信息全局语义特征向量进行训练优化。
相应的,在一种可能的实现方案中,对所述训练语义拓扑用户信息全局语义特征矩阵展开后得到的训练语义拓扑用户信息全局语义特征向量进行训练优化以得到优化训练语义拓扑用户信息全局语义特征向量,包括:以如下公式对所述训练语义拓扑用户信息全局语义特征向量进行训练优化以得到所述优化训练语义拓扑用户信息全局语义特征向量;
其中,所述公式为:
其中,V是所述训练语义拓扑用户信息全局语义特征向量,vi是所述训练语义拓扑用户信息全局语义特征向量V的特征值,||·||1和||·||2分别是所述训练语义拓扑用户信息全局语义特征向量V的1范数和2范数,L是所述训练语义拓扑用户信息全局语义特征向量V的长度,且α是与vi相关的权重超参数,v′i是所述优化训练语义拓扑用户信息全局语义特征向量的特征值。
这里,通过所述训练语义拓扑用户信息全局语义特征向量V的整体特征分布分别在绝对距离的刚性结构和空间距离的非刚性结构下的结构一致性和稳定性表示,来使得所述训练语义拓扑用户信息全局语义特征向量V的全局特征分布对于局部模式变化具有一定重复性,以在所述训练语义拓扑用户信息全局语义特征向量通过分类器进行分类时,对于全局特征分布经由分类器的权重矩阵的尺度和旋转变化具有鲁棒性,提升分类训练的稳定性。这样,能够通过分析政府公共平台提供的客户数据,了解客户的养老需求、收入水平、风险承受能力等个体特征,从而能够更好地为每个客户推荐适合其需求和目标的个人养老金账户,实现个性化的服务和建议,为基金公司制定精准的营销策略和活动提供支持。
综上,根据本申请实施例的基于多方数据源的公共数据平台的数据分析方法被阐明,其通过获取由政府公共平台提供的针对于被分析客户的用户数据,并在后端引入数据处理和语义分析算法来进行用户数据的语义分析和理解,从而通过分析政府公共平台提供的客户数据,可以了解客户的养老需求、收入水平、风险承受能力等个体特征。基于这些信息,可以为每个客户推荐适合其需求和目标的个人养老金账户,实现个性化的服务和建议。
进一步地,还提供一种基于多方数据源的公共数据平台。
图6为根据本申请实施例的基于多方数据源的公共数据平台的框图。如图6所示,根据本申请实施例的基于多方数据源的公共数据平台300,包括:数据获取模块310,用于获取由政府公共平台提供的针对于被分析客户的用户数据;语义理解模块320,用于对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列;语义一致性关联分析模块330,用于对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵;关联编码模块340,用于对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征;以及,结果生成模块350,用于基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。
如上所述,根据本申请实施例的基于多方数据源的公共数据平台300可以实现在各种无线终端中,例如具有基于多方数据源的公共数据平台的数据分析算法的服务器等。在一种可能的实现方式中,根据本申请实施例的基于多方数据源的公共数据平台300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于多方数据源的公共数据平台300可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于多方数据源的公共数据平台300同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于多方数据源的公共数据平台300与该无线终端也可以是分立的设备,并且该基于多方数据源的公共数据平台300可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (9)
1.一种基于多方数据源的公共数据平台的数据分析方法,其特征在于,包括:
获取由政府公共平台提供的针对于被分析客户的用户数据;
对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列;
对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵;
对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征;以及
基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。
2.根据权利要求1所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列,包括:
对所述用户数据进行数据清洗和分词处理以得到用户信息描述词的序列;以及
将所述用户信息描述词的序列通过包含词嵌入层的上下文编码器以得到所述用户信息描述词上下文语义特征向量的序列。
3.根据权利要求2所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵,包括:
计算所述用户信息描述词上下文语义特征向量的序列中任意两个用户信息描述词上下文语义特征向量之间的余弦相似度以得到词粒度语义一致性拓扑矩阵;以及
将所述词粒度语义一致性拓扑矩阵通过基于卷积神经网络模型的语义一致性拓扑特征提取器以得到所述词粒度语义一致性拓扑特征矩阵。
4.根据权利要求3所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征,包括:将所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵通过图神经网络模型以得到语义拓扑用户信息全局语义特征矩阵作为所述用户信息全局语义拓扑关联特征。
5.根据权利要求4所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户,包括:将所述语义拓扑用户信息全局语义特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否向客户推荐个人养老金账户。
6.根据权利要求5所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,还包括训练步骤:用于对所述包含词嵌入层的上下文编码器、所述基于卷积神经网络模型的语义一致性拓扑特征提取器、所述图神经网络模型和所述分类器进行训练。
7.根据权利要求6所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,所述训练步骤,包括:
获取训练数据,所述训练数据包括被分析客户的训练用户数据,以及,所述是否向客户推荐个人养老金账户的真实值;
对所述训练用户数据进行数据清洗和分词处理以得到训练用户信息描述词的序列;
将所述训练用户信息描述词的序列通过所述包含词嵌入层的上下文编码器以得到训练用户信息描述词上下文语义特征向量的序列;
计算所述训练用户信息描述词上下文语义特征向量的序列中任意两个训练用户信息描述词上下文语义特征向量之间的余弦相似度以得到训练词粒度语义一致性拓扑矩阵;
将所述训练词粒度语义一致性拓扑矩阵通过所述基于卷积神经网络模型的语义一致性拓扑特征提取器以得到训练词粒度语义一致性拓扑特征矩阵;
将所述训练用户信息描述词上下文语义特征向量的序列和所述训练词粒度语义一致性拓扑特征矩阵通过所述图神经网络模型以得到训练语义拓扑用户信息全局语义特征矩阵;
对所述训练语义拓扑用户信息全局语义特征矩阵展开后得到的训练语义拓扑用户信息全局语义特征向量进行训练优化以得到优化训练语义拓扑用户信息全局语义特征向量;
将所述优化训练语义拓扑用户信息全局语义特征向量通过所述分类器以得到分类损失函数值;
基于所述分类损失函数值并通过梯度下降的方向传播来对所述包含词嵌入层的上下文编码器、所述基于卷积神经网络模型的语义一致性拓扑特征提取器、所述图神经网络模型和所述分类器进行训练。
8.根据权利要求7所述的基于多方数据源的公共数据平台的数据分析方法,其特征在于,对所述训练语义拓扑用户信息全局语义特征矩阵展开后得到的训练语义拓扑用户信息全局语义特征向量进行训练优化以得到优化训练语义拓扑用户信息全局语义特征向量,包括:以如下公式对所述训练语义拓扑用户信息全局语义特征向量进行训练优化以得到所述优化训练语义拓扑用户信息全局语义特征向量;
其中,所述公式为:
其中,V是所述训练语义拓扑用户信息全局语义特征向量,vi是所述训练语义拓扑用户信息全局语义特征向量V的特征值,‖·‖1和‖·‖2分别是所述训练语义拓扑用户信息全局语义特征向量V的1范数和2范数,L是所述训练语义拓扑用户信息全局语义特征向量V的长度,且α是与vi相关的权重超参数,vi′是所述优化训练语义拓扑用户信息全局语义特征向量的特征值。
9.一种基于多方数据源的公共数据平台,其特征在于,包括:
数据获取模块,用于获取由政府公共平台提供的针对于被分析客户的用户数据;
语义理解模块,用于对所述用户数据进行语义理解以得到用户信息描述词上下文语义特征向量的序列;
语义一致性关联分析模块,用于对所述用户信息描述词上下文语义特征向量的序列中的各个用户信息描述词上下文语义特征向量进行基于词粒度的语义一致性关联分析以得到词粒度语义一致性拓扑特征矩阵;
关联编码模块,用于对所述用户信息描述词上下文语义特征向量的序列和所述词粒度语义一致性拓扑特征矩阵进行进行基于图结构的关联编码以得到用户信息全局语义拓扑关联特征;以及
结果生成模块,用于基于所述用户信息全局语义拓扑关联特征,确定是否向客户推荐个人养老金账户。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311655505.7A CN117574915A (zh) | 2023-12-05 | 2023-12-05 | 基于多方数据源的公共数据平台及其数据分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311655505.7A CN117574915A (zh) | 2023-12-05 | 2023-12-05 | 基于多方数据源的公共数据平台及其数据分析方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117574915A true CN117574915A (zh) | 2024-02-20 |
Family
ID=89893709
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311655505.7A Withdrawn CN117574915A (zh) | 2023-12-05 | 2023-12-05 | 基于多方数据源的公共数据平台及其数据分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117574915A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117892252A (zh) * | 2024-03-18 | 2024-04-16 | 浙江威星电子系统软件股份有限公司 | 基于大数据的智慧园区运营管理平台 |
| CN118673932A (zh) * | 2024-08-26 | 2024-09-20 | 福建大数据一级开发有限公司 | 一种基于深度学习的政策解读方法及智能化政策解读系统 |
-
2023
- 2023-12-05 CN CN202311655505.7A patent/CN117574915A/zh not_active Withdrawn
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117892252A (zh) * | 2024-03-18 | 2024-04-16 | 浙江威星电子系统软件股份有限公司 | 基于大数据的智慧园区运营管理平台 |
| CN118673932A (zh) * | 2024-08-26 | 2024-09-20 | 福建大数据一级开发有限公司 | 一种基于深度学习的政策解读方法及智能化政策解读系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110929164B (zh) | 一种基于用户动态偏好与注意力机制的兴趣点推荐方法 | |
| CN111339306B (zh) | 分类模型训练方法、分类方法及装置、设备和介质 | |
| CN110517121A (zh) | 基于评论文本情感分析的商品推荐方法及商品推荐装置 | |
| WO2024031933A1 (zh) | 一种基于多模态数据的社交关系分析方法、系统和存储介质 | |
| CN112329444B (zh) | 融合文本和传播结构的早期谣言检测方法 | |
| CN112131886A (zh) | 一种文本的方面级别情感分析方法 | |
| CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
| CN117574915A (zh) | 基于多方数据源的公共数据平台及其数据分析方法 | |
| CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
| CN116796288A (zh) | 一种面向工业文档的多模态信息提炼方法和系统 | |
| CN118585883A (zh) | 基于常识协同感知的多模态讽刺检测方法 | |
| CN113449508B (zh) | 一种基于事件链的网络舆情关联推演预测分析方法 | |
| CN111291182A (zh) | 热点事件发现方法、装置、设备及存储介质 | |
| CN116361497B (zh) | 基于多层次特征和注意力机制的图像菜谱检索方法 | |
| CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
| CN110321565B (zh) | 基于深度学习的实时文本情感分析方法、装置及设备 | |
| CN113705197A (zh) | 一种基于位置增强的细粒度情感分析方法 | |
| CN118966211A (zh) | 处理文本数据的方法及设备 | |
| CN114706954A (zh) | 一种情感极性的分析方法、装置、设备及可读存储介质 | |
| CN113763084B (zh) | 产品推荐的处理方法、装置、设备及存储介质 | |
| CN117852553B (zh) | 基于聊天记录提取元器件交易场景信息的语言处理系统 | |
| CN117854734B (zh) | 基于历史病历信息的相似病例匹配系统及方法 | |
| CN120011558A (zh) | 一种基于预训练语言模型融合深度卷积网络的文本分类方法 | |
| CN119357409A (zh) | 基于双曲空间下跨社区知识图谱的论文推荐方法及系统 | |
| CN116720517B (zh) | 搜索词成分识别模型构建方法以及搜索词成分识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240220 |
|
| WW01 | Invention patent application withdrawn after publication |