CN119577795A - 一种数据处理方法、装置、电子设备、芯片及介质 - Google Patents
一种数据处理方法、装置、电子设备、芯片及介质 Download PDFInfo
- Publication number
- CN119577795A CN119577795A CN202411611502.8A CN202411611502A CN119577795A CN 119577795 A CN119577795 A CN 119577795A CN 202411611502 A CN202411611502 A CN 202411611502A CN 119577795 A CN119577795 A CN 119577795A
- Authority
- CN
- China
- Prior art keywords
- data
- initial
- noise
- cluster
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种数据处理方法、装置、电子设备及介质,涉及隐私保护技术领域,包括:获取多个节点的初始数据集合,所述初始数据集合包括多个用户的用户数据,所述用户数据包括多个预设维度的初始数据;根据所述初始数据的敏感等级,对初始数据进行加噪处理,得到第一数据集合,所述第一数据集合中包括多个用户的第一数据;按照预设维度,对所述第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵;通过层次聚类和Ward准则,对所述不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。本方法能够根据敏感等级对用户数据进行自适应的加噪处理,实现对用户数据的保护,并通过整合和聚类,进一步保护用户数据隐私安全。
Description
技术领域
本公开涉及隐私保护技术领域,尤其涉及一种数据处理方法、装置、电子设备、芯片及介质。
背景技术
在用户通过终端使用网络服务的过程中,涉及的隐私和安全问题在于数据泄露的风险,用户提供的个人信息如果被未经授权的第三方访问可能会导致一系列的安全问题,应用和服务在设计时如果没有充分考虑数据安全性,或在实际操作中存在漏洞,会使得用户信息容易被黑客攻击或通过恶意软件窃取,导致用户隐私数据的泄露。
发明内容
本公开提供一种数据处理方法、装置、电子设备、芯片及介质,以实现对用户数据的保护。
本公开的第一方面实施例提出了一种数据处理方法,该方法包括:获取多个节点的初始数据集合,初始数据集合包括多个用户的用户数据,用户数据包括多个预设维度的初始数据;根据初始数据的敏感等级,对初始数据进行加噪处理,得到第一数据集合,第一数据集合中包括多个用户的第一数据;按照预设维度,对第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵;通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。
在本公开的一些实施例中,根据初始数据的敏感等级,对初始数据进行加噪处理包括:基于维度与敏感等级对应关系,确定初始数据的敏感等级;根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级;基于噪声量级生成拉普拉斯噪声,并将拉普拉斯噪声添加至初始数据。
在本公开的一些实施例中,根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级包括:将敏感等级为高敏感性的初始数据对应的噪声量级确定为第一数值;将敏感等级为中等敏感性的初始数据对应的噪声量级确定为第二数值,第一数值大于第二数值;将敏感等级为低等敏感性的初始数据对应的噪声量级确定为第三数值,第三数值小于第二数值。
在本公开的一些实施例中,按照预设维度,对第一数据集合中的第一数据进行整合包括:对第一数据集合中的第一数据进行数据清洗和标准化处理,得到第二数据集合;按照预设维度,将第二数据集合中的数据进行维度分离;针对不同预设维度的第二数据,按照预设规则,进行数据编码,得到不同预设维度的整合数据矩阵,不同预设维度的整合数据矩阵对应多个用户的整合数据向量。
在本公开的一些实施例中,通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理包括:将每个用户对应的整合数据向量作为初始聚类中心,进行层次聚类,得到每个初始聚类中心对应的初始聚类集;将每两个初始聚类中心作为聚类对,基于Ward准则,对聚类对进行合并,得到聚类映射关系。
在本公开的一些实施例中,基于Ward准则,对聚类对进行合并包括:确定每个聚类对的欧式距离;基于欧式距离,以及预设聚类簇数,合并聚类对,直至达到预设聚类簇数,得到聚类映射关系,聚类映射关系为每个聚类簇的标识与对应聚类簇中的用户对应的整合数据向量。
本公开的第二方面实施例提出了一种数据处理装置,该装置包括:获取模块,用于获取多个节点的初始数据集合,初始数据集合包括多个用户的用户数据,用户数据包括多个预设维度的初始数据;加噪模块,用于根据初始数据的敏感等级,对初始数据进行加噪处理,得到第一数据集合,第一数据集合中包括多个用户的第一数据;整合模块,用于按照预设维度,对第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵;聚类模块,用于通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。
本公开的第三方面实施例提出了一种电子设备,包括:一个或多个处理器和与所述一个或多个处理器通信连接的存储装置,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本公开第一方面实施例中描述的方法。
本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一方面实施例中描述的方法。
本公开的第五方面实施例提出了一种芯片,该芯片包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令,当处理器执行计算机指令时,使得电子设备执行本公开第一方面实施例中描述的方法。
综上,根据本公开提出的数据处理方法,获取多个节点的初始数据集合,初始数据集合包括多个用户的用户数据,用户数据包括多个预设维度的初始数据;根据初始数据的敏感等级,对初始数据进行加噪处理,得到第一数据集合,第一数据集合中包括多个用户的第一数据;按照预设维度,对第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵;通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。本公开的数据处理方法,能够考虑不同数据维度的敏感度,根据不同的敏感度确定噪声的噪声量级,以对数据进行加噪处理,实现用户数据的隐私保护,同时通过整合和聚类处理,揭示数据的内在结构,进一步保护用户数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1为本公开实施例提出的一种数据处理方法的流程图;
图2为本公开实施例提出的对初始数据进行加噪处理的方法流程图;
图3为本公开实施例提出的对第一数据集合进行整合的方法流程图;
图4为本公开实施例提出的聚类处理的方法流程图;
图5为本公开实施例提出的对聚类对进行合并的方法流程图;
图6为数据处理方法的流程图;
图7为本公开实施例提供的一种数据处理装置的结构示意图;
图8为本公开实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本公开的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述实施例。
在用户访问服务时,通常需要提供个人信息,如姓名、地址、电话号码、银行账户信息等,这些信息如被未经授权的第三方访问,可能会导致一系列安全问题,包括身份盗窃、欺诈甚至金融损失。很多应用和服务在设计时可能没有充分考虑数据安全性,或者在实际操作中存在漏洞,会使得用户信息容易被黑客攻击或通过恶意软件窃取,此外,一些服务提供商可能未能遵守最佳的数据保护实践,如数据加密、安全的数据存储和访问控制,增加了数据被泄露的风险。当前主要通过复杂的加密算法对数据进行加密,并定期进行加密算法的更新,以实现保护用户隐私数据的目的。但是复杂的加密算法通常需要较多的计算资源,这可能导致应用运行缓慢,特别时在资源有限的移动设备上,这种性能影响可能导致用户体验下降,特别是在需要实时处理大量数据的服务中更为明显;其次,加密算法需要定期更新以抵御新出现的威胁,会造成较高的技术更新成本;另外,加密算法的实时复杂性可能导致配置错误或实施不当,从而引入新的安全漏洞;加密技术虽然可以保护数据在传输和存储过程中的安全,但用户的设备本身如未能采取适当的安全措施,也会使数据面临被盗用的风险。
为了解决相关技术中存在的问题,本公开提出一种数据处理方法,根据数据的敏感性添加拉普拉斯噪声,并对加噪数据按照不同的特性进行整合和聚类,创建统一的数据视图,使得后续可能利用到的数据分析和机器学习场景能够高效运行。本公开提出的方法相较于相关技术,能够根据数据特性进行加噪,利用差分隐私的实现确保即使在数据泄露的情况下,个人数据仍然保持匿名。利用整合和聚类揭示数据的内在结构,进一步保护用户隐私。
下面结合附图对本申请所提供的数据处理方法进行详细介绍。
图1为本公开实施例提供的一种数据处理方法的流程图。如图1所示,该数据处理方法包括步骤101-104。
步骤101,获取多个节点的初始数据集合。
在本公开的实施例中,初始数据集合包括多个用户的用户数据,用户数据包括多个预设维度的初始数据。
在本公开的实施例中,获取多个节点的初始数据集合可以是从多个客户端节点收集用户的用户数据,用户数据包括多个预设维度的初始数据。
在本公开的实施例中,获取多个节点的初始数据集合可以是根据设定的特定范围,获取特定范围的多个节点的初始数据集合,换言之,即收集该特定范围的多个节点的初始数据集合,其中,特定范围可以是特定地区或者特定群体,每个节点负责特定地区或特定群体的数据的收集。
在本公开的实施例中,根据设定的特定范围收集多个节点的初始数据集合可以实现数据的相关性,即限定范围有助于收集与特定场景或需求相关的数据,避免混入无关数据,减少干扰;同时对于不同的地区或群体,设定特定范围有助于更精确地评估数据的敏感性,从而更合理地设定噪声量级;另外,设定特定范围可以减少数据处理的计算资源需求,尤其在分布式环境中,有助于分配资源到关键区域。
在本公开的实施例中,多个预设维度可以是根据需求设定的,预设维度可以是地理位置、设备类型、交互方式、浏览历史、通信记录、交易信息等维度,还可以是其他的预设维度,对此本公开不予限定。
在本公开的实施例中,地理位置是指用户的真实地理位置,例如是GPS坐标,每个用户数据通常都会包含一个地理位置,地理位置可以是动态变化的,尤其是对于移动设备用户。
在本公开的实施例中,设备类型是指用户使用的设备类型,例如是智能手机、平板、笔记本等,同一用户可能同时使用多个设备,因此设备类型的数据可以是单一的,也可以是多个,例如同一用户在不同时段对应不同的设备类型。
在本公开的实施例中,交互方式是指用户的个人行为模式和偏好,例如使用设备的方式(点击、滑动、打字等),交互方式可能是动态的,随时间和应用情境变化,因此一个用户可能在不同情境下有不同的交互方式的数据。
在本公开的实施例中,浏览历史是指用户的网页浏览记录,通信记录是指用户的通话记录、消息记录等,交易信息是指用户的购买或财务交易记录。
示例地,根据设定的范围,收集该范围内每个服务器节点上的用户数据,用户数据包括三个主要特性的数据:地理位置、设备类型、交互方式。
步骤102,根据初始数据的敏感等级,对初始数据进行加噪处理,得到第一数据集合。
在本公开的实施例中,第一数据集合中包括多个用户的第一数据。
在本公开的实施例中,根据初始数据的敏感等级,对初始数据进行加噪处理,可以是根据初始数据所属的预设维度,按照预设维度的敏感等级,确定初始数据的敏感等级,从而对不同敏感等级的初始数据进行加噪处理。
在本公开的实施例中,按照预设维度的敏感等级,确定初始数据的敏感等级,可以是使用评估规则,确定不同预设维度的敏感等级,从而得到初始数据的敏感等级。
在本公开的实施例中,根据初始数据的敏感等级,对初始数据进行加噪处理,可以是按照初始数据的类型以及所在的区域或群体特征,使用训练好的评估模型对初始数据进行多维度综合评估,确定初始数据的敏感等级,其中,评估模型可以是使用训练数据进行训练得到的。
在本公开的实施例中,加噪处理可以是根据初始数据的敏感等级,确定添加噪声的种类、噪声的参数,并根据初始数据所属的维度,确定加噪的方式,从而对初始数据添加噪声。
在本公开的实施例中,加噪处理所对应添加的噪声可以是拉普拉斯噪声,也可以是高斯噪声、均匀分布噪声等,对此本公开不予限定。
在本公开的实施例中,第一数据集合中的每个用户的第一数据均为加噪后的初始数据,每个第一数据都对应一个预设维度。
在上述实施例中,根据初始数据的敏感等级,对初始数据进行加噪处理可以实现差异化的加噪,在保护隐私和数据可用性之间取得更好的平衡。
步骤103,按照预设维度,对第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵。
在本公开的实施例中,按照预设维度,对第一数据集合中的第一数据进行整合,可以是按照预设维度,将第一数据集合中的第一数据进行分类汇总,得到多个预设维度的整合数据矩阵。
在本公开的实施例中,对第一数据集合中的第一数据进行整合可以将不同类型的数据按照维度进行组织,为后续的数据处理步骤提供一致、结构化的数据视图,进一步地,能够为机器学习或数据挖掘算法准备输入数据。
示例地,将各个节点加入噪声数据后的用户数据,按照不同预设维度,对数据进行整合,以获取整合数据,整合数据中包括不同预设维度的数据矩阵。
在上述实施例中,通过对不同预设维度的第一数据整合为矩阵,从而得到数据的多维结构。
步骤104,通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。
在本公开的实施例中,层次聚类是一种数据聚类算法,通过构建一个聚类树分析数据集的相似度和差异,是将数据集按照某种方法进行层次分解,直到满足某种条件为止,层次聚类包括凝聚型和分裂型。其中,凝聚型层次聚类是自底向上的策略,包括初始化、合并;分裂型层次聚类采用自顶向下的策略,包括初始化和分裂。在不同的实施例中可以采用不同的层次聚类的方法,对此本公开不予限定。
在本公开的实施例中,Ward准则也称为Ward等值原理或离差平方和法,是一种基于最小方差和最小平方差准则的聚类分析方法,可以最小化由合并引起的总内聚距离增加,使得聚类过程倾向于创建大小相似的聚类,从而可以防止少数几个大聚类主宰整个数据集。
在本公开的实施例中,通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理,可以是将不同预设维度的整合数据矩阵中的不同用户的整合数据进行聚类和合并,以得到聚类结果,即聚类映射关系。
在本公开的实施例中,保存聚类映射关系,以用于后续的数据分析和结果解释,保证分析的可重复性。
示例地,对整合数据使用聚类算法进行聚类处理,并保存聚类映射关系信息。
综上,根据本公开提出的数据处理方法,可以按照设定的特定范围,获取不同预设维度的初始数据,以根据初始数据的敏感等级,对初始数据进行加噪处理,实现对特定范围内的用户数据的差分隐私保护,并对加噪后的数据进行整合和聚类分析,进一步保证数据隐私。
本公开提出的数据处理方法减少了计算资源的需求,可以实时处理大量数据,并且相较于加密算法的方式,减少了频繁更新加密算法的需求,降低维护成本,同时也减少了因配置错误或实施不当而引入的安全漏洞的可能性,即使在用户设备的安全措施不足的情况下,通过在服务器端实施该数据处理方法,仍然能够保护用户数据。
图2为本公开提出的对初始数据进行加噪处理的方法流程图,基于图1所示的实施例,图2对步骤102进行进一步定义。如图2所示,包括如下步骤:
步骤201,基于维度与敏感等级对应关系,确定初始数据的敏感等级。
在本公开的实施例中,维度与敏感等级对应关系可以是通过专家审查、历史数据分析或隐私影响评估得到的对应关系,例如可以是根据历史分析和专家审查,确定不同预设维度与敏感等级的对应关系。
在本公开的实施例中,确定不同预设维度与敏感等级的对应关系可以是由专家、隐私保护人员或数据分析团队根据历史数据分析、隐私影响评估等方式认为确定的。
在本公开的实施例中,维度与敏感等级对应关系可以是对于地理位置的数据,由于地理位置的数据通常较为敏感,需要较大的噪声量级以避免用户位置的精确推断,因此敏感等级为高敏感性;对于设备类型的数据,由于设备类型的数据虽然敏感但相对稳定,不直接泄露个人位置或行为,因此敏感等级可以为中等敏感性;对于交互方式的数据,交互方式涉及用户的行为模式,可能揭示用户的个人习惯或偏好,因此敏感等级为高敏感性。
在本公开的实施例中,维度与敏感等级对应关系还可以包括:浏览历史,用户的网页浏览记录,可能暴露用户的兴趣和行为模式,敏感等级为高敏感性;通信记录,用户的通话记录、消息记录等,敏感等级为高敏感性;交易信息,用户的购买或财务交易记录,可能暴露财务情况,敏感等级为高敏感性,该对应关系还可以包括其他维度的敏感等级,对此本公开不予限定。
示例地,最初的敏感性评估由专家审查、历史数据分析或隐私影响评估完成,预先设定数据特性(如地理位置、设备类型、交互方式)对应的敏感性等级,并通过经验和领域知识评估出每个特性对用户隐私的潜在风险,得到不同数据特性与对应的敏感性等级的规则。
在本公开的实施例中,基于维度与敏感等级对应关系,确定初始数据的敏感等级可以是根据上述不同特性的敏感等级确定初始数据的敏感等级,对于初始数据为地理位置的数据,其敏感等级为高敏感性,对于设备类型的初始数据,其敏感等级为中等敏感性,对于交互方式的初始数据,其敏感等级为高敏感性。
示例地,系统自动根据得到的规则将每个数据特性分类为高、中或低敏感性。
步骤202,根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级。
在本公开的实施例中,根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级可以是将敏感等级为高敏感性的初始数据对应的噪声量级确定为第一数值。
在本公开的实施例中,根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级可以是将敏感等级为中等敏感性的初始数据对应的噪声量级确定为第二数值,第一数值大于第二数值。
在本公开的实施例中,根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级可以是将敏感等级为低等敏感性的初始数据对应的噪声量级确定为第三数值,第三数值小于第二数值。
在本公开的实施例中,加噪处理所采用的噪声为拉普拉斯噪声,拉普拉斯噪声是一种双尾对称分布,意味着它在均值的两侧分布相同。这种对称性在保护隐私时非常重要,因为它保证了添加到数据中的噪声不会偏向某一方向,从而使得隐私泄露风险降低。同时,拉普拉斯分布在中心位置(0)有一个尖峰,这意味着大部分噪声值会相对接近真实数据点,而只有少数极端噪声会被生成。这确保了大多数数据在被加噪后仍保持相对准确的特性,适用于差分隐私的场景中,既保护隐私又不严重影响数据的可用性。
在本公开的实施例中,使用拉普拉斯噪声进行加噪处理相比于正态分布(即高斯噪声),正态分布虽然常见,但它生成的噪声值可能较大,且分布尾部较长,容易产生极端值,进而大幅偏离真实数据;而拉普拉斯分布通过尖峰和快速衰减的尾部,能够减少极端噪声的生成,控制数据偏差。相比均匀分布的噪声,均匀分布的噪声值在某个区间内随机生成,可能导致过多的随机性,破坏数据的实际意义;而拉普拉斯分布则能够提供更合理的噪声值分布,使得隐私保护更均衡。
在本公开的实施例中,噪声量级为噪声对应的参数,基于初始数据的敏感等级,为不同敏感等级的数据设定拉普拉斯噪声的标准偏差(scale parameter,表示为β),在本方法中,β的值与数据的敏感等级成正比,可以采用以下原则设定:高敏感性的初始数据,例如地理位置、交互方式,选择较大的β值,例如β=1.0或更高,以提供较强的隐私保护;对于中等敏感性的初始数据,例如设备类型,选择中等的β值,例如β=0.5;对于低等敏感性的初始数据,选择低等的β值,例如=0.1。
步骤203,基于噪声量级生成拉普拉斯噪声,并将拉普拉斯噪声添加至对应的初始数据。
在本公开的实施例中,基于噪声量级生成拉普拉斯噪声,可以是根据不同初始数据确定的噪声量级的第一数值或第二数值或第三数值,生成拉普拉斯噪声。
在本公开的实施例中,生成拉普拉斯噪声的公式为:Noise=Laplace(0,β),其中,Laplace(0,β)表示以0为中心,以β为标度参数的拉普拉斯分布。
在本公开的实施例中,添加至对应的初始数据可以是将生成的拉普拉斯噪声添加至对应的初始数据。
在本公开的实施例中,将生成的拉普拉斯噪声添加至对应的初始数据可以是按照初始数据所属的预设维度,确定加噪方式,以将生成的拉普拉斯噪声添加至对应的初始数据。换言之,对于不同预设维度的数据的加噪方式可以是不同的,例如对于地理位置、设备类型、交互方式的数据的加噪方式不同。
在本公开的实施例中,对于地理位置的初始数据,地理位置的初始数据由经度和纬度两个坐标值表示,拉普拉斯噪声会分别添加到经度和纬度两个坐标上,这意味着,每个位置坐标(经度、纬度)都会加上独立生成的噪声值,从而扰乱实际的地理位置。
示例地,用户的地理位置是(100.1234,50.5678),系统会分别对100.1234和50.5678这两个数值添加拉普拉斯噪声,使得新的坐标(100.1234+噪声1,50.5678+噪声2)成为用户的位置。
在本公开的实施例中,对于设备类型的初始数据,设备类型通常是分类数据,表示设备的种类,如智能手机、平板电脑、笔记本等,由于设备类型不是数值数据,因此不能直接加噪声,这里的噪声会添加在设备类型的编码上,或通过扰乱设备类型数据间接实现隐私保护。通过对设备类型进行编码,例如智能手机编码为1,平板电脑编码为2,在这些编码上添加生成的噪声,改变设备类型的值。由于设备类型数据是分类数据,噪声可能会导致设备类型在相邻类别间发生一定的扰乱。
示例地,设备类型的编码为1(智能手机),噪声值为0.4,加噪后的结果可以是1(智能手机)或稍作扰动变为2(平板电脑),从而扰乱用户的设备信息。
在本公开的实施例中,对于交互方式的初始数据,交互方式涉及用户的行为模式,如点击、滑动、输入等,这类数据可以是离散数据(如点击次数、操作类型)或连续数据(如滑动距离、输入时间)。如果是离散数据,噪声可以直接加在数字值上,例如,点击次数是5,加入噪声后,可能编程6或4;如果是类别数据,噪声可以通过类别扰动实现,类似设备类型,不同交互方式会被编码,对这些编码数据进行噪声扰动。
示例地,用户交互方式是“点击”,编码为1,噪声值为0.2,加入噪声扰动后编码为2,即变为“滑动”。
在上述实施例中,通过系统预设的维度与敏感等级对应关系,可以确定不同预设维度下的初始数据的敏感等级,并针对不同的敏感等级,生成不同噪声量级的拉普拉斯噪声,按照不同预设维度的加噪方式,将生成的拉普拉斯噪声添加至对应的初始数据,实现对用户数据的差分隐私保护,提高了用户数据的安全性,避免了使用复杂加密算法的高计算资源需求,降低了维护成本,简化了数据保护措施,避免因配置错误或实施不当而引入的安全漏洞的可能性。
图3为本公开提出的对第一数据集合进行整合的方法流程图,基于图1-图2所示的实施例,如图3所示,图3对图1中的步骤103进行进一步的定义,包括如下步骤:
步骤301,对第一数据集合中的第一数据进行数据清洗和标准化处理,得到第二数据集合。
在本公开的实施例中,对第一数据集合中的第一数据进行数据清洗和标准化处理可以是对加噪后的用户数据进行数据清洗和标准化或归一化,去除不完整或错误的记录,例如是处理缺失值、异常值等,对数据进行标准化或归一化可以保证数据在不同的尺度下具有可比性,以保证数据一致性。
在本公开的实施例中,对第一数据进行数据清洗和标准化处理得到的第二数据集合中包括多个第二数据,第二数据为初始数据加噪后的数据。
示例地,从分布在各地的节点收集加噪后的用户数据,每个节点负责特定地区或用户群体的数据,进行数据预处理,其中,数据预处理包括数据清洗和数据标准化。
步骤302,按照预设维度,将第二数据集合中的数据进行维度分离。
在本公开的实施例中,按照预设维度,将第二数据集合中的数据进行维度分离可以是将不同预设维度的第二数据从第二数据集合中分离出来。
在本公开的实施例中,将第二数据集合中的数据进行维度分离可以是将经过数据清洗和标准化处理后得到的数据集合作为总数据,将地理位置的数据从总数据中分离出来,以及将设备类型的数据从总数据中分离出来,以及将交互方式的数据从总数据中分离出来。
在本公开的实施例中,当预设维度包括地理位置、设备类型、交互方式、浏览历史、通信记录、交易信息等中的至少一个时,按照不同的维度,将数据从第二数据集合中分离,得到不同预设维度的数据集合。
步骤303,针对不同预设维度的第二数据,按照预设规则,进行数据编码,得到不同预设维度的整合数据矩阵。
在本公开的实施例中,不同预设维度的整合数据矩阵对应多个用户的整合数据向量。
在本公开的实施例中,预设规则可以是预先设备的不同预设维度对应的处理方式。
在本公开的实施例中,预设规则可以是对于地理位置的数据,将地理位置的坐标转换为基于网格的编码,输出地理位置矩阵对应行表示用户,列表示不同时间的地理位置编码;对于设备类型的数据,将设备类型进行分类并编码,输出设备类型矩阵对应行表示用户,列表示用户在不同时间点所使用的设备类型编码;对于交互方式的数据,将交互方式进行分类并编码,输出交互方式矩阵对应行表示用户,列表示用户在不同时间或不同应用场景下的交互方式编码。
在本公开的实施例中,针对不同预设维度的第二数据,按照预设规则,进行数据编码可以是对于地理位置的第二数据,对每个第二数据进行编码或转换,构建地理位置矩阵,其中行代表个体用户,列代表用户在不同时间的地理位置编码。
示例地,用户A的位置为(100.1234,50.5678),这是加噪后的经度和纬度值,将经纬度坐标(100.1234,50.5678)映射到一个网格化的区域编码,例如区域编码为A12,这样能够减少地理位置的精度,增强隐私保护,得到的地理位置矩阵中行代表用户A,对应的列为A12。
在本公开的实施例中,针对不同预设维度的第二数据,按照预设规则,进行数据编码可以是对于设备类型的第二数据,对每个第二数据进行分类和编码,按照用户和设备使用的时间序列(或其他相关变量)构建设备类型矩阵,其中行代表个体用户,列代表不同时间的设备类型编码。
示例地,用户B使用的设备是智能手机,按照智能手机编码为1,平板电脑编码为2,笔记本编码为3的规则,将用户B的设备类型编码为1,得到的设备类型矩阵中行代表用户B,对应的列为1。
在本公开的实施例中,针对不同预设维度的第二数据,按照预设规则,进行数据编码可以是对于交互方式的第二数据,对每个第二数据进行分类和编码,构建交互方式矩阵,其中行代表个体用户,列代表用户在不同时间或不同应用场景下的交互方式编码。
示例地,用户C的交互方式是点击和滑动,按照点击编码为1,滑动编码为2,输入编码为3的规则,将用户C的交互方式编码为1和2,得到的交互方式矩阵中行代表用户C,列为1、2。
在本公开的实施例中,对于交互方式矩阵,其列代表不同时间或不同应用场景的类型编码是指交互方式不仅可以随着时间变化,还可以随着用户所处的应用场景变化,例如用户在社交媒体应用中的交互方式可能是滑动和电机,而在工作应用中的交互方式可能是打字和选择。
在本公开的实施例中,交互方式矩阵有两种可能得结构:一是单一时间维度的结构,列表示不同时间下用户的交互方式编码,这个矩阵类似于地理位置矩阵和设备类型矩阵;二是时间+应用场景维度的结构,列不仅表示时间,还表示应用场景,例如,某个时间段的交互方式可以根据用户正在使用的应用场景进行细分。
示例地,用户D在上午9点使用社交媒体应用的交互方式是点击,编码为1,而在下午3点使用办公应用时,交互方式是打字,编码为3。在这种情况下,交互方式矩阵中的列不仅代表不同时间,还代表不同应用场景。
在本公开的实施例中,通过数据清洗和标准化处理、维度分离、数据编码,得到地理位置矩阵、设备类型矩阵、交互方式矩阵,不同预设维度的整合数据矩阵对应多个用户的整合数据向量,其中,每个用户的整合数据向量包含该用户对应的地理位置维度下的整合数据、设备类型维度下的整合数据、交互方式维度下的整合数据中的至少之一。
在上述实施例中,通过在数据整合前进行差异化的加噪处理,即使矩阵数据被泄露,也难以精确地追溯到具体个人,从而保护了用户隐私。进一步的,通过对加噪后的数据进行数据清洗和标准化处理、按照预设维度进行维度分离、对不同维度的数据按照预设规则进行数据编码,得到的整合数据矩阵可以用于数据分析和机器学习算法,帮助分析用户行为模式,预测用户趋势或进行其他统计分析。
图4为本公开提出的聚类处理的方法流程图,基于图1-图3所示的实施例,如图4所示,图4对图1中的步骤104进行进一步的定义,包括如下步骤:
步骤401,将每个用户对应的整合数据向量作为初始聚类中心,进行层次聚类,得到每个初始聚类中心对应的初始聚类集。
在本公开的实施例中,将每个用户对应的整合数据向量作为初始聚类中心可以是将每个整合数据向量作为一个独立的聚类。
在本公开的实施例中,层次聚类可以是采用凝聚层次聚类算法,初始化时将每个用户的整合数据向量作为一个独立聚类,得到每个独立聚类的初始聚类集。
示例地,整合后的数据包括地理位置矩阵、设备类型矩阵和交互方式矩阵,采用凝聚层次聚类算法,初始化时将每个数据点视为一个独立的聚类,输出为每个数据点作为一个独立聚类的初始聚类集。
步骤402,将每两个初始聚类中心作为聚类对,基于Ward准则,对聚类对进行合并,得到聚类映射关系。
在本公开的实施例中,将每两个初始聚类中心作为聚类对可以是将任意两个初始聚类中心组成一个聚类对,每个初始聚类中心可以与其他所有初始聚类中心组成一个聚类对。
在本公开的实施例中,基于Ward准则,对聚类对进行合并可以是将每个用户的整合数据向量视为单独的聚类开始,逐步合并最接近的聚类对,直至所有的整合数据向量都统一到一个聚类中或达到用户定义的聚类数量。
在本公开的实施例中,将每两个初始聚类中心作为聚类对可以是在输入为多个初始聚类集,输出为距离矩阵,其中,横坐标对应一个初始聚类中心,纵坐标对应一个初始聚类中心,横纵坐标的交叉点为两个初始聚类中心的距离,即聚类对的距离。
在本公开的实施例中,基于Ward准则,对聚类对进行合并可以是按照最小化内部方差增加量的原则,通过合并使得总内部方差增加最小的聚类对。
在上述实施例中,通过对整合后的数据进行聚类处理,以揭示数据的内在结构,通过聚类映射关系,进一步保护用户数据在检索过程中的隐私。
图5为本公开提出的对聚类对进行合并的方法流程图,基于图1-图4所示的实施例,如图5所示,图5对图4中的步骤402进行进一步的定义,包括如下步骤:
步骤501,确定每个聚类对的欧式距离。
在本公开的实施例中,确定每个聚类对的欧式距离可以是计算每一对初始聚类中心的距
离,可以采用如下公式进行计算:
其中,χi和yi分别是两个初始聚类中心对应点的坐标,即初始聚类中心对应的整合数据向量。
在本公开的实施例中,确定聚类对的欧式距离可以是得到聚类对之间的距离矩阵。
步骤502,基于欧式距离,以及预设聚类簇数,合并聚类对,直至达到预设聚类簇数,得到聚类映射关系。
在本公开的实施例中,聚类映射关系为每个聚类簇的标识与对应聚类簇中的用户对应的整合数据向量。
在本公开的实施例中,合并聚类对可以是将聚类对对应的初始聚类集进行合并。
在本公开的实施例中,基于欧式距离,以及预设聚类簇树,合并聚类对,可以是基于步骤501输出的距离矩阵,使用Ward准则,选择最小化内部方差增加的聚类对进行合并,以得到合并后的新聚类集,合并后的新聚类集可以是合并为一个簇或者达到设定簇数。
在本公开的实施例中,预设聚类簇数可以是通过构建树状图的方式,根据需要选择截断树状图的高度即截断点,确定最终聚类的数量。
在本公开的实施例中,基于欧式距离,以及预设聚类簇数,合并聚类对可以是将聚类过程可视化为一个树状图,显示聚类间的关系和距离,通过分析树状图,选择一个适当的截断点确定最终聚类的数量,可以是基于业务需求、数据分布特性或其他启发式方法,最终得到聚类的数量和每个整合数据向量到其聚类的映射。
在本公开的实施例中,截断点的确定原则可以是根据以下因素确定:合并距离的显著变化,树状图中的每个分叉点表示簇的合并,合并距离在某一高度会出现明显的跳跃或变化(即合并两个簇需要更大的代价),截断点通常选择在显著变化的位置,因为此时在继续合并会导致簇内方差显著增加;业务需求或预设的聚类数,在某些情况下,用户可能有业务需求上的要求,如必须将数据分为特定数量的簇,在这种情况下,可以根据树状图找到与该需求最接近的截断点;数据分布特性:通过观察树状图,可以看到不同聚类层次下的分布特性。如果在某一层次上,簇的数量与数据分布的结构更契合(如均衡的簇大小或明显的分层结构),可以在此选择截断点。
在本公开的实施例中,合并聚类对得到预设聚类簇数的聚类簇,每个聚类簇中包括构成该聚类的所有整合数据向量,从而得到聚类映射关系,聚类映射关系即为每个聚类簇的标识与对应聚类簇中的用户对应的整合数据向量。
在本公开的实施例中,聚类映射关系包括聚类的标识符和构成该聚类的所有整合数据向量的列表,将得到的聚类映射关系保存,以支持可重复性分析和数据的安全检索。例如是将每个整合数据向量及其对应的聚类编号存储在数据库或文件系统中。将聚类映射关系存档,有助于后续的数据分析、监控或验证工作。
在本公开的实施例中,当需要调取用户数据,需要再完成用户的完整身份验证后,输入待查询的预设维度,基于聚类映射关系和加噪方式,调取用户的初始数据。
示例地,对用户进行身份验证,身份验证可以是通过多种方式完成,包括但不限于密码、生物识别、二因素认证等,在用户通过身份验证后,获取输入的特定的查询条件,如地理位置、设备类型、交互方式,基于聚类映射关系检索数据,找到与用户输入的查询条件相匹配的数据集,在提取到相应的数据后,应用本公开上述加噪处理的方式对数据进行处理,以返回给用户。
在上述实施例中,通过按照聚类对之间的欧式距离以及预设聚类簇数,基于Ward准则对聚类对进行合并,可以使得到的聚类簇的内部方差增加最小化,防止少数几个大聚类主宰整个数据集,进一步实现对用户数据的隐私保护。同时,得到的聚类映射关系还可以用于后续的数据分析、监控或验证等工作,以支持可重复性分析和数据的安全检索。
图6为数据处理方法的流程图,如图6所示,该方法包括:
S110,在每个服务器节点上针对收集到的用户的数据加入随机噪声进行处理,获取处理后的用户数据,随机噪声是与用户数据,按照地理位置、设备类型相关、交互方式相关的噪声。
示例性的,在差分隐私中,拉普拉斯分布因其在差分隐私中的理想特性——对称性和尖峰性,因此本申请采用拉普拉斯分布。
本申请中噪声的量级不是随机选择的,而是与数据的敏感性相关。在本步骤中,噪声的添加依据用户数据的三个主要特性:地理位置、设备类型和交互方式。从各个客户端收集用户的原始数据。根据每种数据类型的敏感性确定噪声的量级,并生成相应的噪声值。将计算得到的噪声添加到相应的用户数据中。加噪后的数据被发送到服务器,以进行进一步的分析或存储。
具体的,1、首先进行数据敏感性评估:对用户数据的每个特性(地理位置、设备类型、交互方式)进行敏感性评估。这可以通过专家审查、历史数据分析或隐私影响评估来完成。例如:地理位置:由于可能暴露用户的具体位置信息,故被评为高敏感性;设备类型:通常被视为中等敏感性,因为虽然能提供关于用户设备的信息,但不直接泄露个人位置或行为;交互方式:可能根据用户的行为模式被视为高敏感性,因为它可能揭示用户的个人习惯或偏好。
2、确定噪声参数:基于数据的敏感性,为每种数据类型设定拉普拉斯噪声的标准偏差(scale parameter,表示为β)。在差分隐私中,β的值通常与数据的敏感度成正比。可以采用以下指导原则来设定:高敏感性数据(如地理位置、交互方式):选择较大的β值(例如,β=1.0或更高),以提供较强的隐私保护;敏感性数据(如设备类型):选择中等的β值(例如,β=0.5)。
3、生成拉普拉斯噪声:对每个数据点按其类型生成拉普拉斯分布噪声。使用拉普拉斯分布是因为它的对称性和尖峰性,适合实现差分隐私。生成噪声的公式:Noise=Laplace(0,β),其中,Laplace(0,β)表示以0为中心、以β为标度参数的拉普拉斯分布。
4、进行数据处理与传输:
将生成的噪声直接加到每个相应的用户数据点上。例如,如果原始数据是用户的位置坐标(经度和纬度),则相应的噪声将被添加到这两个坐标值上。加噪后的数据随后被安全地发送到服务器进行存储或进一步分析。
S120,将各个节点加入噪声数据后的用户数据,按照地理位置、设备类型和交互方式三个维度进行数据整合,以获取整合数据,整合数据中包括地理位置矩阵、设备类型矩阵和交互方式矩阵。
示例性的,数据整合的主要目的是构建一个统一的数据视图,使得数据分析和机器学习算法能够有效运行。通过将数据按照地理位置、设备类型和交互方式这三个维度整合,可以更好地理解数据的多维结构,为后续的聚类、预测或其他数据挖掘任务提供支持。从各个节点收集加噪后的数据。每个节点可能负责收集特定地区或用户群体的数据。
具体的,1、数据预处理:
数据收集:从分布在各地的节点收集加噪后的用户数据,每个节点负责特定地区或用户群体的数据。
数据清洗:去除数据中的不完整或错误记录,如处理缺失值、异常值等。
数据标准化:对数据进行标准化或归一化处理,保证数据在不同的尺度下具有可比性,便于后续分析。
2、维度分离与矩阵构建:
(1)地理位置矩阵(Location_Matrix):
输入:加噪后的用户地理位置数据(经度和纬度)。
处理:将地理位置数据从总数据中分离出来,对每个用户的位置数据进行编码或转换,如将地理坐标转换为基于网格的编码。
输出:构建一个矩阵,其中行代表个体用户,列代表用户在不同时间的地理位置编码。
(2)设备类型矩阵(Device_Type_Matrix):
输入:加噪后的用户设备类型数据(如手机、平板、笔记本等)。
处理:从总数据中提取设备类型信息,对设备类型进行分类和编码。
输出:按用户和设备使用的时间序列(或其他相关变量)构建矩阵,行代表个体用户,列代表不同时间的设备类型编码。
(3)交互方式矩阵(Interaction_Mode_Matrix):
输入:加噪后的用户交互方式数据(如点击、滑动、输入等)。
处理:提取交互方式数据,按类型进行分类和编码。
输出:构建一个矩阵,行代表个体用户,列代表用户在不同时间或不同应用场景下的交互方式编码。
3、矩阵的应用:
数据分析和机器学习:这些矩阵将用于数据分析和机器学习算法,帮助分析用户行为模式、预测用户趋势或进行其他统计分析。
隐私保护:通过在数据整合前加入噪声,即使矩阵数据被泄露,也难以精确地追溯到具体个人,从而保护用户隐私。
S130,采用层次聚类算法对整合数据进行聚类处理,并保存聚类映射关系信息。
S1301、采用凝聚方法开始聚类。凝聚层次聚类是从底向上的聚类方法。该过程从将每个数据点视为单独的聚类开始,然后逐步合并最接近的聚类对,直至所有数据点都统一到一个聚类中或达到用户定义的聚类数量。
输入:整合后的数据,包括地理位置矩阵、设备类型矩阵和交互方式矩阵。
处理:采用凝聚层次聚类算法,初始化时将每个数据点视为一个独立的聚类。
输出:每个数据点作为一个独立聚类的初始聚类集。
S1302、基于欧式距离计算聚类距离。
输入:S1301中生成的初始聚类集。
处理:对每对聚类使用欧式距离公式计算距离:
其中,χi和yi分别是两个聚类中对应点的坐标。
输出:聚类对之间的距离矩阵。
S1303、基于Ward链接准则合并聚类。Ward链接准则在合并聚类时,尝试最小化由合并引起的总内聚距离(即方差)增加。这使得聚类过程倾向于创建大小相似的聚类,从而可以防止少数几个大聚类主宰整个数据集。
具体的,输入:S1302的聚类距离矩阵。
处理:使用Ward链接准则,选择最小化内部方差增加的聚类对进行合并。该准则通过合并那些使得总内部方差增加最小的聚类来工作。
输出:合并后的新聚类集,每次迭代合并最接近的两个聚类。
S1304、构建树状图并选择聚类数。构建完树状图后,根据需要选择截断树状图的高度,从而决定最终聚类的数量。
具体的,输入:聚类过程中逐步合并的数据。
处理:将聚类过程可视化为一个树状图(Dendrogram),显示聚类间的关系和距离。
决策:通过分析树状图,选择一个适当的截断点来确定最终聚类的数量。这可以基于业务需求、数据分布特性或其他启发式方法。
输出:最终聚类的数量和每个数据点到其聚类的映射。
S1404、保存聚类映射关系信息。保存每个数据点到其相应聚类的映射关系至关重要。这不仅有助于后续的数据分析和结果解释,也是保证分析可重复性的关键步骤。
具体的,输入:S1304中确定的聚类映射关系。
处理:将每个数据点及其对应的聚类编号存储在数据库或文件系统中。这包括聚类的标识符和构成该聚类的所有数据点的列表。
输出:聚类映射关系的存档文件或数据库记录,可用于后续的数据分析、监控或验证工作。
S140,在需要调用信息的用户完成身份验证后,输入待查询地理位置、设备类型和交互方式,基于聚类映射关系信息和噪声加密方式,调取用户数据。
示例性的,首先确保进行严格的用户身份验证。身份验证可以通过多种方式完成,包括但不限于密码、生物识别、二因素认证等。
用户通过身份验证后,可以输入特定的查询条件,如地理位置、设备类型和交互方式。这些条件用于定位需要检索的特定数据集,从而确保用户只能访问其授权查看的信息。
基于聚类映射关系信息检索数据,系统将使用之前建立的聚类映射关系来找到与用户输入条件相匹配的数据集。在提取到相应的数据后,为了进一步保护用户隐私,系统将应用噪声加密方式对数据进行处理。这一步涉及在数据返回用户之前,加入一定程度的随机噪声。噪声方式本申请采用拉普拉斯方式。
综上,本方法相较于现有技术具有如下有益效果:
1、资源消耗降低:使用根据敏感等级进行的差分隐私的加噪处理,相比复杂的加密算法,减少了计算资源的需求,优化了应用的性能,可以用于实时处理大量数据的场景中。
2、简化维护需求:通过根据敏感等级进行的差分隐私的加噪处理,减少了频繁更新加密算法的需求,降低了维护成本。
3、增强安全性:简化了数据保护措施从而减少了因配置错误或实施不当而引入的安全漏洞的可能性,同时,即使在用户设备的安全措施不足的情况下,通过在服务器端实施上述数据处理方法,也能够保护用户数据。
图7为本公开实施例提供的一种数据处理装置的结构示意图。该装置700包括:获取模块710,加噪模块720,整合模块730,聚类模块740。该装置700通过上述四个模块实现数据处理方法。
在本公开实施例中,获取模块710用于获取多个节点的初始数据集合,初始数据集合包括多个用户的用户数据,用户数据包括多个预设维度的初始数据。
加噪模块720用于根据初始数据的敏感等级,对初始数据进行加噪处理,得到第一数据集合,第一数据集合中包括多个用户的第一数据。
整合模块730用于按照预设维度,对第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵。
聚类模块740用于通过层次聚类和Ward准则,对不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。
在一些实施例中,加噪模块720还用于:基于维度与敏感等级对应关系,确定初始数据的敏感等级;根据初始数据的敏感等级,确定初始数据对应的拉普拉斯噪声的噪声量级;基于噪声量级生成拉普拉斯噪声,并将拉普拉斯噪声添加至对应的初始数据。
在一些实施例中,加噪模块720还用于:将敏感等级为高敏感性的初始数据对应的噪声量级确定为第一数值;将敏感等级为中等敏感性的初始数据对应的噪声量级确定为第二数值,第一数值大于第二数值;将敏感等级为低等敏感性的初始数据对应的噪声量级确定为第三数值,第三数值小于第二数值。
在一些实施例中,整合模块730还用于:对第一数据集合中的第一数据进行数据清洗和标准化处理,得到第二数据集合;按照预设维度,将第二数据集合中的数据进行维度分离;针对不同预设维度的第二数据,按照预设规则,进行数据编码,得到不同预设维度的整合数据矩阵,不同预设维度的整合数据矩阵对应多个用户的整合数据向量。
在一些实施例中,聚类模块730还用于:将每个用户对应的整合数据向量作为初始聚类中心,进行层次聚类,得到每个初始聚类中心对应的初始聚类集;将每两个初始聚类中心作为聚类对,基于Ward准则,对聚类对进行合并,得到聚类映射关系。
在一些实施例中,聚类模块730还用于:确定每个聚类对的欧式距离;基于欧式距离,以及预设聚类簇数,合并聚类对,直至达到预设聚类簇数,得到聚类映射关系,聚类映射关系为每个聚类簇的标识与对应聚类簇中的用户对应的整合数据向量。
综上,通过本公开提出的数据处理装置,可以根据初始数据的敏感等级对初始数据进行加噪处理,实现差分隐私保护,并对加噪后的数据进行整合和聚类处理,进一步保护用户数据。
上述本申请提供的实施例中,对本申请实施例提供的方法及装置进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,电子设备可以包括硬件结构、软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能可以以硬件结构、软件模块、或者硬件结构加软件模块的方式来执行。
图8是根据一示例性实施例示出的一种用于实现上述数据处理方法的电子设备800的框图。
参照图8,电子设备800可以包括通信接口801,能够与其他设备进行交互;处理器802,与通信接口801连接,以实现与其他设备进行交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的方法;存储器803,计算机程序存储在存储器803上。具体地,处理器802的具体处理过程可以参照本公开上述实施例中描述的数据处理方法。
当然,实际应用时,电子设备800中的各个组件通过总线系统804耦合在一起。可理解,总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统804。
本申请实施例中的存储器803用于存储各种类型的数据以支持电子设备800的操作。这些数据的示例包括:用于在电子设备800上操作的任何计算机程序。
上述本申请实施例揭示的方法可以应用于处理器802,或者由处理器802实现。处理器802可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器802可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器803,处理器802读取存储器803中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC,Applicat ion Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FP GA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Cont roller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
本公开的实施例还提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述实施例中描述的数据处理方法。
本公开的实施例还提出一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开上述实施例中描述的数据处理方法。
本公开的实施例还提出了一种芯片,该芯片包括一个或多个接口电路和一个或多个处理器;接口电路用于从电子设备的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令,当处理器执行计算机指令时,使得电子设备执行本公开上述实施例中描述的数据处理方法。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(控制方法),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CD ROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明的各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取多个节点的初始数据集合,所述初始数据集合包括多个用户的用户数据,所述用户数据包括多个预设维度的初始数据;
根据所述初始数据的敏感等级,对所述初始数据进行加噪处理,得到第一数据集合,所述第一数据集合中包括多个用户的第一数据;
按照预设维度,对所述第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵;
通过层次聚类和Ward准则,对所述不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。
2.根据权利要求1所述的方法,其特征在于,所述根据所述初始数据的敏感等级,对所述初始数据进行加噪处理包括:
基于维度与敏感等级对应关系,确定所述初始数据的敏感等级;
根据所述初始数据的敏感等级,确定所述初始数据对应的拉普拉斯噪声的噪声量级;
基于所述噪声量级生成拉普拉斯噪声,并将所述拉普拉斯噪声添加至对应的初始数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述初始数据的敏感等级,确定所述初始数据对应的拉普拉斯噪声的噪声量级包括:
将所述敏感等级为高敏感性的初始数据对应的噪声量级确定为第一数值;
将所述敏感等级为中等敏感性的初始数据对应的噪声量级确定为第二数值,所述第一数值大于所述第二数值;
将所述敏感等级为低等敏感性的初始数据对应的噪声量级确定为第三数值,所述第三数值小于所述第二数值。
4.根据权利要求3所述的方法,其特征在于,所述按照预设维度,对所述第一数据集合中的第一数据进行整合包括:
对所述第一数据集合中的第一数据进行数据清洗和标准化处理,得到第二数据集合;
按照所述预设维度,将所述第二数据集合中的数据进行维度分离;
针对不同预设维度的第二数据,按照预设规则,进行数据编码,得到所述不同预设维度的整合数据矩阵,所述不同预设维度的整合数据矩阵对应多个用户的整合数据向量。
5.根据权利要求4所述的方法,其特征在于,所述通过层次聚类和Ward准则,对所述不同预设维度的整合数据矩阵进行聚类处理包括:
将每个用户对应的整合数据向量作为初始聚类中心,进行层次聚类,得到所述每个初始聚类中心对应的初始聚类集;
将每两个初始聚类中心作为聚类对,基于所述Ward准则,对所述聚类对进行合并,得到所述聚类映射关系。
6.根据权利要求5所述的方法,其特征在于,所述基于所述Ward准则,对所述聚类对进行合并包括:
确定每个聚类对的欧式距离;
基于所述欧式距离,以及预设聚类簇数,合并所述聚类对,直至达到所述预设聚类簇数,得到所述聚类映射关系,所述聚类映射关系为每个聚类簇的标识与对应聚类簇中的用户对应的整合数据向量。
7.一种数据处理装置,其特征在于,包括:
获取模块,用于获取多个节点的初始数据集合,所述初始数据集合包括多个用户的用户数据,所述用户数据包括多个预设维度的初始数据;
加噪模块,用于根据所述初始数据的敏感等级,对所述初始数据进行加噪处理,得到第一数据集合,所述第一数据集合中包括多个用户的第一数据;
整合模块,用于按照预设维度,对所述第一数据集合中的第一数据进行整合,得到不同预设维度的整合数据矩阵;
聚类模块,用于通过层次聚类和Ward准则,对所述不同预设维度的整合数据矩阵进行聚类处理,得到聚类映射关系。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
与所述一个或多个处理器通信连接的存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
10.一种芯片,其特征在于,包括一个或多个接口电路和一个或多个处理器;所述接口电路用于从电子设备的存储器接收信号,并向所述处理器发送所述信号,所述信号包括存储器中存储的计算机指令,当所述处理器执行所述计算机指令时,使得所述电子设备执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411611502.8A CN119577795A (zh) | 2024-11-12 | 2024-11-12 | 一种数据处理方法、装置、电子设备、芯片及介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202411611502.8A CN119577795A (zh) | 2024-11-12 | 2024-11-12 | 一种数据处理方法、装置、电子设备、芯片及介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN119577795A true CN119577795A (zh) | 2025-03-07 |
Family
ID=94797410
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202411611502.8A Pending CN119577795A (zh) | 2024-11-12 | 2024-11-12 | 一种数据处理方法、装置、电子设备、芯片及介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN119577795A (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008154029A1 (en) * | 2007-06-11 | 2008-12-18 | The Trustees Of Columbia University In The City Of New York | Data classification and hierarchical clustering |
| CN117332437A (zh) * | 2023-09-14 | 2024-01-02 | 赛力斯汽车有限公司 | 车辆隐私信息的保护方法、装置、计算机设备和存储介质 |
-
2024
- 2024-11-12 CN CN202411611502.8A patent/CN119577795A/zh active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008154029A1 (en) * | 2007-06-11 | 2008-12-18 | The Trustees Of Columbia University In The City Of New York | Data classification and hierarchical clustering |
| CN117332437A (zh) * | 2023-09-14 | 2024-01-02 | 赛力斯汽车有限公司 | 车辆隐私信息的保护方法、装置、计算机设备和存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110958220B (zh) | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 | |
| Hsu et al. | A privacy-preserving federated learning system for android malware detection based on edge computing | |
| Qiu et al. | Cyber code intelligence for android malware detection | |
| US12107883B2 (en) | Multimodal modelling for systems using distance metric learning | |
| CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
| CN116680704A (zh) | 一种用于客户端的数据安全防护方法及系统 | |
| CN119254489A (zh) | 一种基于可信计算的信息网络安全自防御方法及系统 | |
| Huang et al. | An improved federated learning approach enhanced internet of health things framework for private decentralized distributed data | |
| US12072961B2 (en) | Systems and methods for password spraying identification and prevention using hash signature segmentation and behavior clustering analysis | |
| CN120378207A (zh) | 基于多维特征和用户行为的访问异常分析方法及系统 | |
| CN118568741B (zh) | 一种基于云计算的数据存储安全管控方法及系统 | |
| US12223531B2 (en) | Method and an apparatus for a personalized user interface | |
| US12307270B2 (en) | Method of generating a terminal interface | |
| CN118118223A (zh) | 多方关联数据合谋行为识别模型构建方法、识别方法及装置 | |
| CN117807630A (zh) | 基于信息混淆脱敏的信息保护方法及系统 | |
| Sulayman et al. | User modeling via anomaly detection techniques for user authentication | |
| Yadav et al. | Big data hadoop: Security and privacy | |
| Zhang | Graph Neural Network-Based User Preference Model for Social Network Access Control | |
| CN119989031A (zh) | 一种OpenCSG智能数据处理平台 | |
| CN114816964B (zh) | 风险模型构建方法、风险检测方法、装置、计算机设备 | |
| CN119577795A (zh) | 一种数据处理方法、装置、电子设备、芯片及介质 | |
| CN119622769A (zh) | 基于数据加密的电子发票批量处理与存储方法及系统 | |
| CN111917801A (zh) | 私有云环境下基于Petri网的用户行为认证方法 | |
| CN118368086A (zh) | 网络攻击溯源分析方法及相关装置 | |
| CN117932233A (zh) | 基于相似异常行为的用户行为模型微调方法、系统及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |