[go: up one dir, main page]

CN119377337A - 地理对象数据处理方法、装置 - Google Patents

地理对象数据处理方法、装置 Download PDF

Info

Publication number
CN119377337A
CN119377337A CN202411956789.8A CN202411956789A CN119377337A CN 119377337 A CN119377337 A CN 119377337A CN 202411956789 A CN202411956789 A CN 202411956789A CN 119377337 A CN119377337 A CN 119377337A
Authority
CN
China
Prior art keywords
geographic
geographic object
ontology base
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202411956789.8A
Other languages
English (en)
Inventor
张旭
任昌伟
张峰
曾冠雄
刘强
陈一宁
陈荣奇
池剑锋
齐楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Taobao China Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taobao China Software Co Ltd filed Critical Taobao China Software Co Ltd
Priority to CN202411956789.8A priority Critical patent/CN119377337A/zh
Publication of CN119377337A publication Critical patent/CN119377337A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种地理对象数据处理方法、装置、电子设备和计算机存储介质,所述方法包括:获得非本体库地理对象;确定非本体库地理对象的地理位置数据;基于非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格,作为目标地理空间网格;根据预先设置的网格对象映射表,确定目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象;根据非本体库地理对象的地理位置数据和第一目标本体库地理对象的地理位置数据,判断非本体库地理对象与第一目标本体库地理对象是否为同一个地理对象;若是,则将非本体库地理对象的地理对象数据作为第一目标本体库地理对象的补充地理对象数据。

Description

地理对象数据处理方法、装置
技术领域
本申请涉及计算机技术领域,具体涉及一种地理对象数据处理方法、装置、电子设备和计算机存储介质。
背景技术
随着房地产业的快速发展,房产交易日益频繁,房产交易过程中的房产估值尤为重要。房屋估值,也称房产估值,是指根据房屋的结构、标准、地理位置、用料、面积、新旧程度等因素对房屋价值的估算。
在房产估值的场景中,通常采用房产估值模型对房产的价值进行估算,利用数字化的形式对房产价值进行估算,可以提升线上房产价值评估的准确性。在利用房产估值模型对房产的价值进行估算时,具体是将小区数据库中的小区数据输入到房产估值模型中,从而获得房产的估值结果。因而,小区数据库中的小区数据的完整性和准确性对房产估值结果的准确性具有重要的影响。目前,小区数据库中的小区数据来源于多种渠道,比如,网络搜索、用户历史交易记录中的收货地址等。然而,传统小区数据命名混乱,不同用户对相同小区的命名也不统一,多源小区数据的不一致性和小区数据的质量问题严重影响了估值的准确性。
因此,如何提高小区数据库中小区数据的一致性和小区数据的质量是目前亟需解决的问题。
发明内容
本申请实施例提供一种地理对象数据处理方法,该方法提高了本体库地理对象集合中地理对象数据的一致性。
本申请实施例提供一种地理对象数据处理方法,包括:获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;确定所述非本体库地理对象的地理位置数据;基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
可选的,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度;
根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
可选的,所述确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;
判断所述地理距离数据是否小于第一地理距离数据阈值,获得第一判断结果;
根据所述第一判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
可选的,还包括:
判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第二判断结果;
所述根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述地理位置匹配度以及所述第二判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
可选的,所述判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第二判断结果,包括:
确定所述第一目标本体库地理对象的子地理对象,作为本体库子地理对象;
确定所述本体库子地理对象的地理对象名称数据;
确定所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度;
根据所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得所述第二判断结果。
可选的,所述根据所述地理位置匹配度以及所述第二判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
如果所述地理位置匹配度高于地理位置匹配度阈值,并且所述非本体库地理对象与所述第一目标本体库地理对象不为父子地理对象,则确定所述非本体库地理对象与所述第一目标本体库地理对象为同一个地理对象。
可选的,还包括:
确定所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据;
根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度;
所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
可选的,所述根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,包括:
判断所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据是否相同,获得第三判断结果;
根据所述第三判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度。
可选的,所述根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;
判断所述地理距离数据是否小于第二地理距离数据阈值,获得第四判断结果;
根据所述第四判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
可选的,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
如果所述地址文本匹配度高于地址文本匹配度阈值,并且所述地理位置匹配度高于地理位置匹配度阈值,则确定所述非本体库地理对象与所述任意一个本体库地理对象为同一个地理对象。
可选的,所述根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,包括:
根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
可选的,所述根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度,包括:
确定所述非本体库地理对象的地理对象名称数据的第一向量;
确定所述第一目标本体库地理对象的地理对象名称数据的第二向量;
判断所述第一向量与所述第二向量的相似度是否大于预设的向量相似度阈值,获得第五判断结果;
根据所述第五判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
可选的,所述确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;
判断所述地理距离数据是否小于第三地理距离数据阈值,获得第六判断结果;
根据所述第六判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
可选的,还包括:
判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第七判断结果;
所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据、所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度以及所述第七判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
可选的,所述判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第七判断结果,包括:
确定所述第一目标本体库地理对象的子地理对象,作为本体库子地理对象;
确定所述本体库子地理对象的地理对象名称数据;
确定所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度;
根据所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得所述第七判断结果。
可选的,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据、所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度以及所述第七判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
如果所述地址文本匹配度高于地址文本匹配度阈值,所述地理位置匹配度高于地理位置匹配度阈值,并且所述非本体库地理对象与所述第一目标本体库地理对象不为父子地理对象,则确定所述非本体库地理对象与所述任意一个本体库地理对象为同一个地理对象。
可选的,还包括:
若所述非本体库地理对象与所述第一目标本体库地理对象不为同一个地理对象,则确定所述目标地理空间网格中除所述第一目标本体库地理对象之外的任意一个本体库地理对象,作为第二目标本体库地理对象;
根据所述非本体库地理对象的地理位置数据和所述第二目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第二目标本体库地理对象是否为同一个地理对象;
若否,再次遍历所述目标地理空间网格中除所述第一目标本体库地理对象、所述第二目标本体库地理对象之外的其余任意一个本体库地理对象,直至所述非本体库地理对象与其余任意一个本体库地理对象为同一个地理对象。
可选的,在获得非本体库地理对象之后,所述方法还包括:
根据预先设置的地理对象名称前后缀关键词数据表,确定所述非本体库地理对象的名称数据中是否存在与所述地理对象名称前后缀关键词匹配的数据;
若是,则针对所述非本体库地理对象执行剔除处理;
或者,根据预先设置的异常数据种类数据表,确定所述非本体库地理对象所属的类型是否为异常数据种类;
若是,则针对所述非本体库地理对象执行剔除处理。
可选的,所述将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据,包括:
获得第一目标本体库地理对象,作为待评估地理对象;
从用于存储地理对象数据的地理对象数据库中获得所述待评估地理对象的目标本体库地理对象数据和补充地理对象数据;
从所述待评估地理对象的目标本体库地理对象数据和补充地理对象数据中,获得评估所述待评估地理对象的资源数据时所需要的地理对象数据;
根据所述所需要的地理对象数据,评估所述待评估地理对象的资源数据。
本申请实施例还提供一种地理对象数据处理装置,包括:
非本体库地理对象获得单元,用于获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;
地理位置数据确定单元,用于确定所述非本体库地理对象的地理位置数据;
目标地理空间网格确定单元,用于基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;
第一目标本体库地理对象确定单元,用于根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;
判断单元,用于根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;
补充地理对象数据获得单元,用于若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
本申请还提供一种电子设备,所述电子设备包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器运行所述计算机程序后,执行上述方法。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行后,执行上述方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供一种地理对象数据处理方法,包括:获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;确定所述非本体库地理对象的地理位置数据;基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;根据所述非本体库地理对象的地理位置数据和所述目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
本申请实施例所述地理对象数据处理方法,能够基于非来源于本体库地理对象集合中的非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格,然后根据预先设置的网格对象映射表,确定非本体库地理对象所在的地理空间网格中的任意一个本体库地理对象(第一目标本体库地理对象),最后,根据非本体库地理对象的地理位置数据和第一目标本体库地理对象的地理位置数据判断二者是否为同一个地理对象,若是,则将非本体库地理对象的地理对象数据作为第一目标本体库地理对象的补充地理对象数据,地理对象数据和补充地理对象数据一起作为用于向地理对象数据需求方提供地理对象数据服务的数据。该地理对象数据处理方法提高了本体库地理对象集合中地理对象数据的一致性。
附图说明
图1是本申请第一实施例提供的一种地理对象数据处理方法的第一应用场景示意图。
图2是本申请第一实施例提供的一种地理对象数据处理方法的第二应用场景示意图。
图3是本申请第一实施例提供的一种地理对象数据处理方法的第三应用场景示意图。
图4是本申请第一实施例提供的一种地理对象数据处理方法的第四应用场景示意图。
图5是本申请第一实施例提供的一种地理对象数据处理方法的第五应用场景示意图。
图6是本申请第一实施例提供的一种地理对象数据处理方法的第六应用场景示意图。
图7是本申请第一实施例提供的一种地理对象数据处理方法的流程图。
图8是本申请第二实施例提供的一种地理对象数据处理装置的示意图。
图9是本申请第三实施例提供的一种电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
首先,为了使本领域的技术人员更好的理解本申请方案,下面基于本申请提供的一种地理对象数据处理方法,对其实施例的具体应用场景进行详细描述。
在对本申请实施例的具体应用场景进行详细描述之前,首先对方案的背景进行描述。随着房地产业的快速发展,房产交易日益频繁,房产交易过程中的房产估值尤为重要。房屋估值,也称房产估值,是指根据房屋的结构、标准、地理位置、用料、面积、新旧程度等因素对房屋价值的估算。在房产估值的场景中,通常采用房产估值模型对房产的价值进行估算,利用数字化的形式对房产价值进行估算,可以提升线上房产价值评估的准确性。在利用房产估值模型对房产的价值进行估算时,具体是将小区数据库中的小区数据输入到房产估值模型中,从而获得房产的估值结果。因而,小区数据库中的小区数据的完整性和准确性对房产估值结果的准确性具有重要的影响。目前,小区数据库中的小区数据来源于多种渠道,比如,网络搜索、用户历史交易记录中的收货地址等。然而,传统小区数据命名混乱,不同用户对相同小区的命名也不统一,多源小区数据的不一致性和小区数据的质量问题严重影响了估值的准确性。
基于此,本申请实施例提供了一种地理对象数据处理方法,该方法能够基于非来源于本体库地理对象集合中的非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格,然后根据预先设置的网格对象映射表,确定非本体库地理对象所在的地理空间网格中的任意一个本体库地理对象(第一目标本体库地理对象),最后,根据非本体库地理对象的地理位置数据和第一目标本体库地理对象的地理位置数据判断二者是否为同一个地理对象,若是,则将非本体库地理对象的地理对象数据作为第一目标本体库地理对象的补充地理对象数据,地理对象数据和补充地理对象数据一起作为用于向地理对象数据需求方提供地理对象数据服务的数据。该地理对象数据处理方法提高了本体库地理对象集合中地理对象数据的一致性。
以下对本申请实施例涉及的技术术语进行解释:
本体库地理对象集合,也称本体库小区集合,或者小区本体库,是指由专门团队维护的小区集合,本体库地理对象的地理对象数据包括小区的地址、小区的经纬度坐标等信息。本体库小区中小区的数据越丰富,通过房产估值模型对本体库小区的价值进行评估时,评估结果的准确率越高。
非本体库地理对象,也称房源小区,是指第三方的小区。非本体库地理对象的地理对象数据包括房源小区的地址、房源小区的经纬度坐标等信息。
子小区和父小区,是指一个小区可能由多个子小区组成,该小区则称为父小区。例如一个父小区“XX城”有多个子小区“XX城一期”和“XX城二期”等。
挂载,是指将房源小区匹配到本体库小区,从而扩充本体库小区的信息,例如,房源小区名为“XX”,本体库小区名为“XX湾”,且两个小区为同一小区,挂载即把“XX”和“XX湾”进行关联。需要注意的是,为了保证本体库小区的唯一性和匹配率,匹配关系可以为一对多,即一个房源父小区可以关联到多个本体库子小区。
经纬度:经纬度是地球上某一点位置的坐标表示方法。经度(Longitude)是从本初子午线(0°经线)向东或向西测量的角度,范围从-180°到+180°。纬度(Latitude)是从赤道向北或向南测量的角度,范围从-90°到+90°。
地理空间索引:专门为存储和查询地理空间数据而设计的数据结构,对处理大量的空间数据起到了关键作用。
h3:将地球空间划分成可识别的单元,将经纬度h3编码成六边形的网格索引。
归一:将不同尺度或分布的数据转换到一个共同的标准范围内的过程。其主要目的是消除不同特征之间的量纲影响。小区归一化的程度直接影响小区库数据质量,归一化后的小区库在用户搜索相关信息时,可以精准找到目标小区,减少多源数据造成的噪声。
以下结合图1-图6对本申请实施例提供的地理对象处理方法的应用场景进行详细的描述。
如图1所示,其为本申请第一实施例提供的一种地理对象处理方法的第一应用场景示意图。在获得非本体库地理对象后,需要对多源小区数据进行清洗,即,对非本体库地理对象数据进行标准化处理,具体可以按照预先设置的地理对象名称前后缀关键词数据表将非本体库地理对象数据中具有需要剔除的地理对象名称前后缀关键词的数据进行剔除;也可以按照预先设置的异常数据种类数据表,将属于异常种类的非本体库地理对象进行剔除。需要说明的是,如果按照预先设置的地理对象名称前后缀关键词数据表将非本体库地理对象剔除后,如果存在误剔除,比如,在进行数据清洗过程中按照前后缀剔除了100个小区,但是其中有一个小区“XX之城村”中的“村”符合前后缀剔除的关键词,但是实际发现小区“XX之城村”是一个标准的小区,证明存在误剔除,此时可以通过其他策略判断剔除的小区是否应该召回。对于小区经纬度数据异常,可以通过确定与小区具有关联关系的用户的地理位置数据,基于用户的地理位置信息确定小区的地理位置数据;或者,可以通过地理信息系统调用小区的地理位置数据,从而保证小区经纬度的完整性。
通过数据分析归类异常数据种类以及按照不同的清洗策略对多源数据进行清洗后,之后将多源小区按照预设的算法和融合策略对多源数据进行融合归一,对多源数据进行融合归一,请参见图2,其为本申请第一实施例提供的一种地理对象处理方法的第二应用场景示意图。具体是通过预设的uber h3地理算法将多源小区量化到地理空间网格中,多源小区即多个房源小区,也可以称为多个非本体库小区,比如,房源小区A、房源小区B和房源小区C。根据房源小区的地理位置数据可以确定房源小区对应的地理空间网格,比如,地理空间网格的索引为网格1。然后,基于预先设置的网格对象映射表,获得网格1中的任意一个本体库地理对象,该本体库地理对象所在的网格索引同样为网格1。通过uber h3地理算法,可以将实际上非本体库地理对象与本体库地理对象是一个地理对象,但是由于地理对象的地理位置数据不一致、名称不一致的非本体库地理对象与本体库地理对象放在一个空间网格内,进而判断非本体库地理对象与本体库地理对象是否是一个地理对象。比如,房源小区A经纬度数据为123,456;b小区(本体库小区)经纬度数据124,466,通过地理空间网格化,二者的地理空间索引即h3索引相同,即房源小区A和b小区在一个空间网格内,然后再通过后续描述的融合策略来判定他们是否是一个小区,如果是,则将两个小区融合为一个小区。
具体在判断是否应该将两个小区融合在一起,即两个小区是否为同一个小区时,两个小区落到一个网格后,首先通过距离策略(通过数据分析挖掘得到)进行判定房源小区A和b小区是否是同一个小区,父子关系是单独的一个策略。具体流程是:通过距离策略判断房源小区A和b小区是否是同一个小区,如果是二者是同一个小区,再通过父子关系(可以通过地理信息系统接口返回数据构建父子关系数据表)进行二次判断,如果是父子关系二者不是一个小区。比如,小区XX城和小区XX城南区是两条独立的小区数据,通过h3算法二者在一个网格内,通过距离策略(如50m内)二者是同一个小区,但实际上,XX城是父小区,XX城南区是子小区,在小区本体库应该为两条独立的数据,因此,通过父子关系识别二者不应融合。
具体实施时,如果房源小区和本体库小区的距离在第一预设地理距离阈值范围内,比如,50m,且二者不为父子关系,则可以判定二者为同一个小区;如果房源小区和本体库小区的名称相同,且房源小区和本体库小区的距离在第二预设地理距离阈值范围内,比如,20m,则可以判定二者为同一个小区;如果房源小区和本体库小区的名称相似,且房源小区和本体库小区的距离在第三预设地理距离阈值范围内,比如,100m,且二者不为父子关系,则可以判定二者为同一个小区。经过上述策略对小区进行融合归一化后,可以将房源小区和本体库小区进行挂载,房源小区数据可以作为本体库小区的补充数据,作为房产估值模型的数据源。
需要说明的是,房源小区和本体库小区挂载后,可以对挂载映射表进行更新,请参见图3,其为本申请第一实施例提供的一种地理对象处理方法的第三应用场景示意图。比如,挂载映射表中,如果房源小区与本体库小区匹配,即为同一个小区,则将房源小区标记为已挂载,如果房源小区与本体库小区不匹配,即不为同一个小区,则将房源小区标记为未挂载。对于未挂载房源小区还可以利用其他方式再次判断。如果房源小区和本体库小区成功匹配,对于名称异常的小区,可以将名称优化,同时也可以对存量数据进行更新,对增量数据进行融合处理。
在对房源小区数据进行融合处理的过程中,还需要对房源小区以及本体库小区的特征进行处理,请参见图4-图6,房源小区和本体库小区的特征包括小区的楼层、小区的户型、小区的容积率等特征,根据小区特征的不同可以将小区类型分为洋房、别墅、高层等。通过对小区特征进行聚类分析,构建聚类模型,还可以构建分类模型,通过将小区本体库的小区的特征输入模型中,即可预测出小区的类型,比如小区2中,既有别墅,也有洋房。需要说明的是,之所以对小区的类型进行判断,主要是因为小区类型不同,对应的小区数据也不相同,通过对小区类型进行区分,能够使获得的小区数据更准确,从而提高小区了数据质量。
本申请实施例中,首先,通过数据分析归类异常数据并制定不同清洗策略,确保数据准确;其次,利用用户的地理位置信息和利用地理信息系统调用小区的地理位置数据来补充小区的经纬度信息,并结合uber h3地理算法将小区分配到空间网格内,实现了高效的空间管理;最后,通过标准化小区名称、区划信息及其他属性,消除了命名差异。因此,该方案能够提高本体库小区数据的一致性。
以上便是对地理对象处理方法的全过程分析,本申请实施例提供一种地理对象数据处理方法,包括:获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;确定所述非本体库地理对象的地理位置数据;基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
本申请实施例所述地理对象数据处理方法,能够基于非来源于本体库地理对象集合中的非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格,然后根据预先设置的网格对象映射表,确定非本体库地理对象所在的地理空间网格中的任意一个本体库地理对象(第一目标本体库地理对象),最后,根据非本体库地理对象的地理位置数据和第一目标本体库地理对象的地理位置数据判断二者是否为同一个地理对象,若是,则将非本体库地理对象的地理对象数据作为第一目标本体库地理对象的补充地理对象数据,地理对象数据和补充地理对象数据一起作为用于向地理对象数据需求方提供地理对象数据服务的数据。该地理对象数据处理方法提高了本体库地理对象集合中地理对象数据的一致性。
以下通过多个实施例和附图对本申请进行详细说明。
第一实施例
本申请第一实施例提供一种地理对象处理方法,以下结合图7对该地理对象数据处理方法进行详细说明。
步骤S701:获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象。
本步骤用于获得非本体库地理对象。
非本体库地理对象,也称房源小区,本体库地理对象,也称本体库小区,本体库地理对象集合,也称本体库小区集合,也可以称为小区本体库。所述本体库地理对象集合是提供地理对象数据服务所需的地理对象数据源,比如,本体库小区集合中的本体库小区可以作为房产估值模型的数据源,本体库小区集合中本体库小区的数据越丰富,通过房产估值模型对本体库小区的价值进行评估时,评估结果的准确率越高。
具体实施时,在获得非本体库地理对象之后,还需要对非本体库地理对象数据进行标准化处理,具体可以根据预先设置的地理对象名称前后缀关键词数据表,确定所述非本体库地理对象的名称数据中是否存在与所述地理对象名称前后缀关键词匹配的数据;若是,则针对所述非本体库地理对象执行剔除处理;或者,根据预先设置的异常数据种类数据表,确定所述非本体库地理对象所属的类型是否为异常数据种类;若是,则针对所述非本体库地理对象执行剔除处理。如果按照预先设置的地理对象名称前后缀关键词数据表将非本体库地理对象剔除后,如果存在误剔除,比如,在进行数据清洗过程中按照前后缀剔除了100个小区,但是其中有一个小区“XX之城村”中的“村”符合前后缀剔除的关键词,但是实际发现小区“XX之城村”是一个标准的小区,证明存在误剔除,此时可以通过其他策略判断剔除的小区是否应该召回。
需要说明的是,在对非本体库地理对象(小区)进行异常种类识别时,首先利用地理信息系统的数据接口标准化小区数据对应的类型,比如,住宅类、商业类,如果主要是对住宅类小区进行价值评估,此时,商业类则为异常数据类型,需要将商业类小区剔除。在对小区数据进行标准化的时,小区可能存在多样化的名称,比如,XX城一期、XX城(高教路)、XX城、XX省XX市XX区XX城标准名:XX城等,需要将名称进行统一处理。
对于小区的地址进行处理时,房源小区和本体库小区中的地址一般包括以下几种信息:(1)区划信息,如省、市、县、乡镇信息;(2)路网信息,如路名,路号,道路设施等;(3)详细小区信息,如小区名称、楼栋号、户室号等;(4)非地理信息,如补充说明,误输入等。在对房源小区地址和本体库小区地址进行处理时,需要将原始地址拆分成独立语义的要素,并对这些要素进行类型识别,以便于后续房源小区地址和本体库小区地址的匹配。
在对小区地理位置数据进行标准化时,比如,小区的经纬度数据存在异常,需要统一处理,并且经纬度数据可能不一定准确,存在偏移的情况,需要统一处理。对于属性异常,比如,小区建造年代、面积、楼栋数等存在缺失或者不准确,需要统一处理。具体实施时,对于小区经纬度数据异常,可以通过确定与小区具有关联关系的用户的地理位置数据,基于用户的地理位置信息确定小区的地理位置数据;或者,可以通过地理信息系统调用小区的地理位置数据,从而保证小区经纬度的完整性。
步骤S702:确定所述非本体库地理对象的地理位置数据。
本步骤用于确定非本体库地理对象的地理位置数据。
非本体库地理对象的地理位置数据具体可以是经纬度数据,即经纬度坐标数据,包括经度数据和纬度数据。
步骤S703:基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格。
本步骤用于基于非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格。
步骤S704:根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系。
本步骤用于确定目标地理空间网格中的任意一个本体库地理对象。
具体实施时,基于非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格,具体是通过预设的uber h3地理算法将非本体库地理对象量化到地理空间网格中。通过uber h3地理算法可以将地球空间划分成一个个六边形范围,每一个六边形唯一对应一个h3索引,通过将整个空间网格化,每一个地理对象通过地理位置数据可以落入一个空间网格内,通过uber h3地理算法,可以将实际上非本体库地理对象与本体库地理对象是一个地理对象,但是由于地理对象的地理位置数据不一致、名称不一致的非本体库地理对象与本体库地理对象放在一个空间网格内,进而判断非本体库地理对象与本体库地理对象是否是一个地理对象。比如,房源小区A经纬度数据为123,456;b小区(本体库小区)经纬度数据124,466,通过地理空间网格化,二者的h3索引相同,即房源小区A和b小区在一个空间网格内,然后再通过后续描述的融合策略来判定他们是否是一个小区,如果是,则将两个小区融合为一个小区。
本申请实施例中,所述根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,包括:基于所述非本体库地理对象的地理位置数据,确定所述目标地理空间网格中与所述非本体库地理对象的地理位置之间的地理距离在预设的地理距离阈值范围之内的任意一个本体库地理对象,作为第一目标本体库地理对象。
步骤S705:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
本步骤用于根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
作为一种实施例,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度;根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
所述确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,包括:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;判断所述地理距离数据是否小于第一地理距离数据阈值,获得第一判断结果;根据所述第一判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。具体实施时,地理位置匹配度中匹配度可以通过0-1区间值进行表示,具体实施时,可以预先设置好非本体库地理对象与第一目标本体库地理对象之间不同的匹配结果对应不同的取值区间。非本体库地理对象与第一目标本体库地理对象之间的匹配度越高,对应的取值区间越高,如果是完全匹配,则可以取值为1。
需要说明的是,基于上述步骤,已确定非本体库地理对象与第一目标本体库地理对象处于同一个地理空间网格内,此时还需要进一步判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象时,具体是根据非本体库地理对象和第一目标本体库地理对象之间的地理位置匹配度进行判断的,在确定非本体库地理对象和第一目标本体库地理对象之间的地理位置匹配度时,具体是根据非本体库地理对象和第一目标本体库地理对象之间的地理距离数据判断的,即判断所述地理距离数据是否小于第一地理距离数据阈值,比如,50m,获得第一判断结果,根据所述第一判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
假设非本体库地理对象的经纬度为;第一目标本体库地理对象的经纬度为。非本体库地理对象与第一目标本体库地理对象之间的地理距离数据具体可以使用地理信息系统(GIS)技术进行计算,其中,地理距离的计算可根据球面模型进行近似计算,即把地球视为标准椭圆球体并计算球面两点的曲线距离。具体实施时,可以采用GeoDistanceSortBuilder进行排序,即geo_dis排序,利用geo_dis排序时,首先需要定义索引,并在索引中创建一个数据类型为geo_point的字段,用于存储地理位置信息。其次需要‌查询并排序‌,在查询时,使用GeoDistanceSortBuilder指定排序的地理位置和距离单位(如公里、英里等),然后根据距离进行升序或降序排序。计算非本体库地理对象与第一目标本体库地理对象之间的地理距离数据,并设置一定的距离阈值,确保非本体库地理对象和第一目标本体库地理对象之间的地理距离数据在该距离范围内,即
具体实施时,还需要判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第二判断结果;所述根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:根据所述地理位置匹配度以及所述第二判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。所述判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第二判断结果,包括:确定所述第一目标本体库地理对象的子地理对象,作为本体库子地理对象;确定所述本体库子地理对象的地理对象名称数据;确定所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度;根据所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得所述第二判断结果。
所述根据所述地理位置匹配度以及所述第二判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:如果所述地理位置匹配度高于地理位置匹配度阈值,并且所述非本体库地理对象与所述第一目标本体库地理对象不为父子地理对象,则确定所述非本体库地理对象与所述第一目标本体库地理对象为同一个地理对象。
具体实施时,还需要限制房源小区和本体库小区的父子关系,避免本体库小区是房源小区的父小区,假设本体库子地理对象的名称数据为,比如,XX小区一期、XX小区二期、XX小区A区、XX小区B区等,房源小区和本体库子小区需要满足以下条件:
上述实施例中,房源小区和本体库小区的融合策略为距离以及父子关系判断,如果房源小区和本体库小区的距离比较近,比如50m,且二者不为父子关系,则可以判定二者为同一个小区。
作为一种实施例,在确定所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象时,还可以确定所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据;根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度;所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
所述根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,包括:判断所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据是否相同,获得第三判断结果;根据所述第三判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度。
具体实施时,还可以判断非本体库地理对象的地理对象名称数据与第一目标本体库地理对象的地理对象名称数据是否相同,如果非本体库地理对象的地理对象名称数据与第一目标本体库地理对象的地理对象名称数据相同,并且,非本体库地理对象和第一目标本体库地理对象之间的地理距离数据也在预设地理距离范围之内,则确定所述非本体库地理对象与所述第一目标本体库地理对象为同一个地理对象。
所述根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;判断所述地理距离数据是否小于第二地理距离数据阈值,获得第四判断结果;根据所述第四判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,即距离限制满足
所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:如果所述地址文本匹配度高于地址文本匹配度阈值,并且所述地理位置匹配度高于地理位置匹配度阈值,则确定所述非本体库地理对象与所述任意一个本体库地理对象为同一个地理对象。
上述实施例中,房源小区和本体库小区的融合策略为距离以及名称相同,如果房源小区和本体库小区的名称相同,距离范围在预设距离阈值范围之内,比如200m,则可以判定二者为同一个小区。需要说明的是,上述实施例中,地理距离阈值比较小,比如50m,如果非本体库地理对象的地理对象名称数据与第一目标本体库地理对象的地理对象名称数据相同,则地理距离限制的阈值比较高,比如,200m,因为,两个地理对象同名已经基本可以确定两个地理对象为同一个地理对象,因而距离限制宽一些。
作为一种实施例,所述根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,包括:根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
所述根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度,包括:确定所述非本体库地理对象的地理对象名称数据的字符串长度值;确定所述第一目标本体库地理对象的地理对象名称数据的字符串长度值;根据所述非本体库地理对象的地理对象名称数据的字符串长度值与所述第一目标本体库地理对象的地理对象名称数据的字符串长度值,确定所述非本体库地理对象的地理对象名称数据的字符串长度值与所述第一目标本体库地理对象的地理对象名称数据的字符串长度值中字符串长度值大的字符串长度值,作为目标字符串长度值;遍历所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据的字符串中的所有字符;确定所述非本体库地理对象的地理对象名称数据对应的字符串中的第一个字符到当前遍历到的字符的上一个字符之间的第一子字符串与所述第一目标本体库地理对象的地理对象名称数据对应的字符串中的第一个字符到当前遍历到的字符之间的第二子字符串;基于所述第一子字符串和所述第二子字符串,确定所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据的第一最长公共子序列长度值;确定所述非本体库地理对象的地理对象名称数据对应的字符串中的第一个字符到当前遍历到的字符之间的第三子字符串与所述第一目标本体库地理对象的地理对象名称数据对应的字符串中的第一个字符到当前遍历到的字符的上一个字符之间的第四子字符串;基于所述第三子字符串和所述第四子字符串,确定所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据的第二最长公共子序列长度值;确定所述第一最长公共子序列长度值与所述第二最长公共子序列长度值中公共子序列长的最长公共子序列长度值,作为目标最长公共子序列长度值;判断所述目标最长公共子序列长度值与所述目标字符串长度值的比值是否大于预设比值阈值,获得第八判断结果;根据所述第八判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
非本体库地理对象与第一目标本体库地理对象之间进行名称匹配时,具体是使用最长公共子序列排序算法,对房源小区和本体库小区的名称进行相似性排序,取阈值大于,比如,限制两个小区名称的LCS值大于0.7。LCS(Longest Common Subsequence,最长公共子序列)是一种算法,用于找到两个序列中共有的最长子序列。具体实施时,LCS需要满足以下条件:即
其中 "max(a,b)" 表示取a和b中较大的数,表示字符串的第1个字符到第 i个字符组成的字符串,LCS(A,B)为两个字符串的LCS值,该过程基于递归的方式进行计算,直到遍历字符串中所有的字符。
需要说明的是,在计算非本体库地理对象与本体库地理对象集合中的任意一个本体库地理对象的地理对象名称数据的最长公共子序列长度值时,可以首先建立用于记录非本体库地理对象的地理对象名称数据对应的字符串中的字符与任意一个本体库地理对象的地理对象名称数据对应的字符串中的字符组成的字符对之间的最长公共子序列长度值的数据表。然后,将非本体库地理对象的地理对象名称数据对应的字符串中的每个字符与任意一个本体库地理对象的地理对象名称数据对应的字符串中的所有字符进行逐一比较,当两个字符匹配时,可以根据之前的计算结果更新最长公共子序列长度;若不匹配,则忽略当前字符以维持现有的最长公共子序列长度值。通过整合所有比较结果,可以获得非本体库字符串与本体库字符串的最长公共子序列长度值。
在确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度时,还可以根据向量来判断,具体为,所述根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度,包括:确定所述非本体库地理对象的地理对象名称数据的第一向量;确定所述第一目标本体库地理对象的地理对象名称数据的第二向量;判断所述第一向量与所述第二向量的相似度是否大于预设的向量相似度阈值,获得第五判断结果;根据所述第五判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
在确定所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象时,在非本体库地理对象与第一目标本体库地理对象的名称相似度满足预设条件时,还需要判断非本体库地理对象与第一目标本体库地理对象之间的地理距离数据是否满足预设地理距离阈值。具体为,所述确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,包括:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;判断所述地理距离数据是否小于第三地理距离数据阈值,比如,100m,获得第六判断结果;根据所述第六判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,即
具体实施时,还需要判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第七判断结果;所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据、所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度以及所述第七判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
所述判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第七判断结果,包括:确定所述第一目标本体库地理对象的子地理对象,作为本体库子地理对象;确定所述本体库子地理对象的地理对象名称数据;确定所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度;根据所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得所述第七判断结果。
所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据、所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度以及所述第七判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:如果所述地址文本匹配度高于地址文本匹配度阈值,所述地理位置匹配度高于地理位置匹配度阈值,并且所述非本体库地理对象与所述第一目标本体库地理对象不为父子地理对象,则确定所述非本体库地理对象与所述任意一个本体库地理对象为同一个地理对象。
具体实施时,还需要限制房源小区和本体库小区的父子关系,避免本体库小区是房源小区的父小区,假设本体库子地理对象的名称数据为,比如,XX小区一期、XX小区二期、XX小区A区、XX小区B区等,房源小区和本体库子小区需要满足以下条件:
上述实施例中,房源小区和本体库小区的融合策略为名称、距离以及父子关系判断,如果房源小区和本体库小区的距离在预设距离阈值范围之内,比如100m,且二者不为父子关系,则可以判定二者为同一个小区。
步骤S706:若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
本步骤用于在所述非本体库地理对象与所述任意一个本体库地理对象为同一个地理对象时,将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据,所述地理对象数据和所述补充地理对象数据一起作为用于向地理对象数据需求方提供地理对象数据服务的数据,从而丰富了本体库地理对象的地理对象数据。
具体实施时,如果所述非本体库地理对象与所述任意一个本体库地理对象为同一个地理对象,可以在挂载数据表中将非本体库地理对象与第一目标本体库地理对象进行关联处理,挂载数据表也可以称为映射关系表,所述挂载数据表为用于记录本体库地理对象与非本体库地理对象映射关系的数据表。本申请实施例中所述挂载数据表中还包括:用于判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象的判断方式。比如上述提到的判断方式包括:非本体库地理对象与第一目标本体库地理对象之间的距离在第一预设地理距离数据阈值范围之内,比如50m,且非本体库地理对象与第一目标本体库地理对象之间不为父子关系;非本体库地理对象与第一目标本体库地理对象之间名称相同、非本体库地理对象与第一目标本体库地理对象之间的距离在第二预设地理距离数据阈值范围之内,比如,200m;非本体库地理对象与第一目标本体库地理对象之间名称相似、非本体库地理对象与第一目标本体库地理对象之间的距离在第三预设地理距离数据阈值范围之内,比如,100m,且非本体库地理对象与第一目标本体库地理对象之间不为父子关系。
本申请实施例中,所述将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据,包括:获得第一目标本体库地理对象,作为待评估地理对象;从用于存储地理对象数据的地理对象数据库中获得所述待评估地理对象的目标本体库地理对象数据和补充地理对象数据;从所述待评估地理对象的目标本体库地理对象数据和补充地理对象数据中,获得评估所述待评估地理对象的资源数据时所需要的地理对象数据;根据所述所需要的地理对象数据,评估所述待评估地理对象的资源数据。需要说明的是,本体库中的地理对象可以用于评估地理对象的资源数据,比如,可以通过房产估值模型对本体库小区的价值进行评估,本体库小区集合中的本体库小区可以作为房产估值模型的数据源,本体库小区集合的数据越丰富,通过房产估值模型对本体库小区的价值进行评估时,评估结果的准确率越高。
本申请实施例提供所述地理对象数据处理方法,通过清洗过滤异常数据,并采用不同策略对数据进行清洗,能够有效去除不准确或错误的信息,从而提高整体数据集的质量,有利于后续数据分析;利用用户的地理位置信息和利用地理信息系统调用小区的地理位置数据来补充小区的经纬度信息,确保了每个小区记录都具备完整的位置信息;采用uber h3地理算法将小区分配到特定的空间网格中,有助于更好地理解和管理城市空间分布情况,不仅提高了数据组织效率,也为后续的空间分析奠定了基础;通过对小区主名、区划信息及其他属性实施标准化处理,可以消除由于命名差异等原因造成的混乱,有利于不同区域间的数据比较;通过制定多套融合策略,使得数据处理的应用更加灵活和广泛。
本申请实施例提供一种地理对象数据处理方法,包括:获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;确定所述非本体库地理对象的地理位置数据;基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
本申请实施例所述地理对象数据处理方法,能够基于非来源于本体库地理对象集合中的非本体库地理对象的地理位置数据,确定非本体库地理对象所在的地理空间网格,然后根据预先设置的网格对象映射表,确定非本体库地理对象所在的地理空间网格中的任意一个本体库地理对象(第一目标本体库地理对象),最后,根据非本体库地理对象的地理位置数据和第一目标本体库地理对象的地理位置数据判断二者是否为同一个地理对象,若是,则将非本体库地理对象的地理对象数据作为第一目标本体库地理对象的补充地理对象数据,地理对象数据和补充地理对象数据一起作为用于向地理对象数据需求方提供地理对象数据服务的数据。该地理对象数据处理方法提高了本体库地理对象集合中地理对象数据的一致性。
第二实施例
在上述第一实施例中,提供了一种地理对象处理方法,与之相对应的,本申请第二实施例提供了一种地理对象处理装置。由于装置实施例基本相似于方法第一实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图8,为本申请第二实施例提供的一种地理对象处理装置的示意图。
该地理对象处理装置800包括:
非本体库地理对象获得单元801,用于获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;
地理位置数据确定单元802,用于确定所述非本体库地理对象的地理位置数据;
目标地理空间网格确定单元803,用于基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;
第一目标本体库地理对象确定单元804,用于根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;
判断单元805,用于根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;
补充地理对象数据获得单元806,用于若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
第三实施例
与本申请上述方法实施例相对应的,本申请第三实施例还提供一种电子设备。如图9所示,图9为本申请第三实施例中提供的一种电子设备的示意图。该电子设备,包括:至少一个处理器901,至少一个通信接口902,至少一个存储器903和至少一个通信总线904;可选的,通信接口902可以为通信模块的接口,如GSM模块的接口;处理器901可能是处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器903可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。其中,存储器903存储有程序,处理器901调用存储器903所存储的程序,以执行本申请上述实施例中提供的方法。
第四实施例
与本申请上述方法相对应的,本申请第四实施例还提供一种计算机存储介质。所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,以执行本申请上述实施例中提供的方法。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、 输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、 其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

Claims (22)

1.一种地理对象数据处理方法,其特征在于,包括:
获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;
确定所述非本体库地理对象的地理位置数据;
基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;
根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;
若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
2.根据权利要求1所述的地理对象数据处理方法,其特征在于,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度;
根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
3.根据权利要求2所述的地理对象数据处理方法,其特征在于,所述确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;
判断所述地理距离数据是否小于第一地理距离数据阈值,获得第一判断结果;
根据所述第一判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
4.根据权利要求3所述的地理对象数据处理方法,其特征在于,还包括:
判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第二判断结果;
所述根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述地理位置匹配度以及所述第二判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
5.根据权利要求4所述的地理对象数据处理方法,其特征在于,所述判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第二判断结果,包括:
确定所述第一目标本体库地理对象的子地理对象,作为本体库子地理对象;
确定所述本体库子地理对象的地理对象名称数据;
确定所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度;
根据所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得所述第二判断结果。
6.根据权利要求4所述的地理对象数据处理方法,其特征在于,所述根据所述地理位置匹配度以及所述第二判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
如果所述地理位置匹配度高于地理位置匹配度阈值,并且所述非本体库地理对象与所述第一目标本体库地理对象不为父子地理对象,则确定所述非本体库地理对象与所述第一目标本体库地理对象为同一个地理对象。
7.根据权利要求2所述的地理对象数据处理方法,其特征在于,还包括:
确定所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据;
根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度;
所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
8.根据权利要求7所述的地理对象数据处理方法,其特征在于,所述根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,包括:
判断所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据是否相同,获得第三判断结果;
根据所述第三判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度。
9.根据权利要求7所述的地理对象数据处理方法,其特征在于,所述根据所述地理位置匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;
判断所述地理距离数据是否小于第二地理距离数据阈值,获得第四判断结果;
根据所述第四判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
10.根据权利要求7所述的地理对象数据处理方法,其特征在于,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
如果所述地址文本匹配度高于地址文本匹配度阈值,并且所述地理位置匹配度高于地理位置匹配度阈值,则确定所述非本体库地理对象与所述第一目标本体库地理对象为同一个地理对象。
11.根据权利要求7所述的地理对象数据处理方法,其特征在于,所述根据所述非本体库地理对象的地址文本数据与所述第一目标本体库地理对象的地址文本数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,包括:
根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
12.根据权利要求11所述的地理对象数据处理方法,其特征在于,所述根据所述非本体库地理对象的地理对象名称数据与所述第一目标本体库地理对象的地理对象名称数据,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度,包括:
确定所述非本体库地理对象的地理对象名称数据的第一向量;
确定所述第一目标本体库地理对象的地理对象名称数据的第二向量;
判断所述第一向量与所述第二向量的相似度是否大于预设的向量相似度阈值,获得第五判断结果;
根据所述第五判断结果,确定所述非本体库地理对象与所述第一目标本体库地理对象之间的名称匹配度。
13.根据权利要求11所述的地理对象数据处理方法,其特征在于,所述确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理距离数据;
判断所述地理距离数据是否小于第三地理距离数据阈值,获得第六判断结果;
根据所述第六判断结果,确定所述非本体库地理对象和所述第一目标本体库地理对象之间的地理位置匹配度。
14.根据权利要求11所述的地理对象数据处理方法,其特征在于,还包括:
判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第七判断结果;
所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据以及所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据、所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度以及所述第七判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象。
15.根据权利要求14所述的地理对象数据处理方法,其特征在于,所述判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得第七判断结果,包括:
确定所述第一目标本体库地理对象的子地理对象,作为本体库子地理对象;
确定所述本体库子地理对象的地理对象名称数据;
确定所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度;
根据所述本体库子地理对象的地理对象名称数据与所述非本体库地理对象的地理对象名称数据之间的地理对象名称匹配度,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为父子地理对象,获得所述第七判断结果。
16.根据权利要求14所述的地理对象数据处理方法,其特征在于,所述根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据、所述非本体库地理对象与所述第一目标本体库地理对象之间的地址文本匹配度以及所述第七判断结果,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象,包括:
如果所述地址文本匹配度高于地址文本匹配度阈值,所述地理位置匹配度高于地理位置匹配度阈值,并且所述非本体库地理对象与所述目标本体库地理对象不为父子地理对象,则确定所述非本体库地理对象与所述第一目标本体库地理对象为同一个地理对象。
17.根据权利要求1所述的地理对象数据处理方法,其特征在于,还包括:
若所述非本体库地理对象与所述第一目标本体库地理对象不为同一个地理对象,则确定所述目标地理空间网格中除所述第一目标本体库地理对象之外的任意一个本体库地理对象,作为第二目标本体库地理对象;
根据所述非本体库地理对象的地理位置数据和所述第二目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第二目标本体库地理对象是否为同一个地理对象;
若否,再次遍历所述目标地理空间网格中除所述第一目标本体库地理对象、所述第二目标本体库地理对象之外的其余任意一个本体库地理对象,直至所述非本体库地理对象与其余任意一个本体库地理对象为同一个地理对象。
18.根据权利要求1所述的地理对象数据处理方法,其特征在于,在获得非本体库地理对象之后,所述方法还包括:
根据预先设置的地理对象名称前后缀关键词数据表,确定所述非本体库地理对象的名称数据中是否存在与所述地理对象名称前后缀关键词匹配的数据;
若是,则针对所述非本体库地理对象执行剔除处理;
或者,根据预先设置的异常数据种类数据表,确定所述非本体库地理对象所属的类型是否为异常数据种类;
若是,则针对所述非本体库地理对象执行剔除处理。
19.根据权利要求1所述的地理对象数据处理方法,其特征在于,所述将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据,包括:
获得第一目标本体库地理对象,作为待评估地理对象;
从用于存储地理对象数据的地理对象数据库中获得所述待评估地理对象的目标本体库地理对象数据和补充地理对象数据;
从所述待评估地理对象的目标本体库地理对象数据和补充地理对象数据中,获得评估所述待评估地理对象的资源数据时所需要的地理对象数据;
根据所述所需要的地理对象数据,评估所述待评估地理对象的资源数据。
20.一种地理对象数据处理装置,其特征在于,包括:
非本体库地理对象获得单元,用于获得非本体库地理对象,所述非本体库地理对象为非来源于本体库地理对象集合中的地理对象;
地理位置数据确定单元,用于确定所述非本体库地理对象的地理位置数据;
目标地理空间网格确定单元,用于基于所述非本体库地理对象的地理位置数据,确定所述非本体库地理对象所在的地理空间网格,作为目标地理空间网格;
第一目标本体库地理对象确定单元,用于根据预先设置的网格对象映射表,确定所述目标地理空间网格中的任意一个本体库地理对象,作为第一目标本体库地理对象,所述网格对象映射表记录有地理空间网格与本体库地理对象之间的映射关系;
判断单元,用于根据所述非本体库地理对象的地理位置数据和所述第一目标本体库地理对象的地理位置数据,判断所述非本体库地理对象与所述第一目标本体库地理对象是否为同一个地理对象;
补充地理对象数据获得单元,用于若是,则将所述非本体库地理对象的地理对象数据作为所述第一目标本体库地理对象的补充地理对象数据。
21.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;
所述存储器中存储有计算机程序,所述处理器运行所述计算机程序后,执行权利要求1-19任意一项所述的方法。
22.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行后,执行权利要求1-19任意一项所述的方法。
CN202411956789.8A 2024-12-27 2024-12-27 地理对象数据处理方法、装置 Pending CN119377337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411956789.8A CN119377337A (zh) 2024-12-27 2024-12-27 地理对象数据处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411956789.8A CN119377337A (zh) 2024-12-27 2024-12-27 地理对象数据处理方法、装置

Publications (1)

Publication Number Publication Date
CN119377337A true CN119377337A (zh) 2025-01-28

Family

ID=94332546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411956789.8A Pending CN119377337A (zh) 2024-12-27 2024-12-27 地理对象数据处理方法、装置

Country Status (1)

Country Link
CN (1) CN119377337A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164415A1 (en) * 2012-12-07 2014-06-12 Google Inc. Systems and Methods for Matching Similar Geographic Objects
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置
CN111882224A (zh) * 2020-07-30 2020-11-03 上加下信息技术成都有限公司 对消费场景进行分类的方法和装置
CN111881371A (zh) * 2020-05-21 2020-11-03 北京嘀嘀无限科技发展有限公司 一种建立poi父子点对的方法和系统
CN115062108A (zh) * 2022-06-10 2022-09-16 上海估家网络科技有限公司 一种获取标准化房产地址的方法
CN115481241A (zh) * 2021-06-16 2022-12-16 阿里巴巴新加坡控股有限公司 深度学习模型的训练方法、装置和设备
CN117312478A (zh) * 2023-11-30 2023-12-29 中国科学院空天信息创新研究院 地址定位方法、装置、电子设备及存储介质
CN117896717A (zh) * 2024-01-16 2024-04-16 每日互动股份有限公司 一种目标wifi筛选方法、装置、介质及设备
CN117992562A (zh) * 2024-03-28 2024-05-07 阿里云计算有限公司 数据处理方法、数据查询方法、计算设备、存储介质及程序产品

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164415A1 (en) * 2012-12-07 2014-06-12 Google Inc. Systems and Methods for Matching Similar Geographic Objects
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置
CN111881371A (zh) * 2020-05-21 2020-11-03 北京嘀嘀无限科技发展有限公司 一种建立poi父子点对的方法和系统
CN111882224A (zh) * 2020-07-30 2020-11-03 上加下信息技术成都有限公司 对消费场景进行分类的方法和装置
CN115481241A (zh) * 2021-06-16 2022-12-16 阿里巴巴新加坡控股有限公司 深度学习模型的训练方法、装置和设备
CN115062108A (zh) * 2022-06-10 2022-09-16 上海估家网络科技有限公司 一种获取标准化房产地址的方法
CN117312478A (zh) * 2023-11-30 2023-12-29 中国科学院空天信息创新研究院 地址定位方法、装置、电子设备及存储介质
CN117896717A (zh) * 2024-01-16 2024-04-16 每日互动股份有限公司 一种目标wifi筛选方法、装置、介质及设备
CN117992562A (zh) * 2024-03-28 2024-05-07 阿里云计算有限公司 数据处理方法、数据查询方法、计算设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
US9551583B1 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
US11681927B2 (en) Analyzing geotemporal proximity of entities through a knowledge graph
CN110263117B (zh) 一种用于确定兴趣点poi数据的方法与装置
JP2014002519A (ja) 時空間データ管理システム、時空間データ管理方法、及びそのプログラム
CN113656397A (zh) 一种针对时序数据的索引构建及查询的方法、装置
CN108829707A (zh) 跨业务域的大数据智能分析系统及方法
CN120123331B (zh) 一种产业平台迁入迁出的企业分布信息管理方法
Cai et al. Discovering regions of anomalous spatial co-locations
CN114595302A (zh) 空间要素的多层级空间关系构建方法、装置、介质及设备
CN116644886A (zh) 一种存量用地改造价值评估方法、装置、终端及介质
CN115688494B (zh) 数据处理方法、装置、电子设备及计算机可读取存储介质
CN114637929A (zh) 一种基于ElasticSearch的轨迹碰撞方法
CN111882421B (zh) 一种信息处理方法、风控方法、装置、设备及存储介质
CN111339446B (zh) 一种兴趣点挖掘方法、装置、电子设备和存储介质
CN119377337A (zh) 地理对象数据处理方法、装置
CN118981489A (zh) 基于物联网的政务数据存储方法及系统
CN116630117A (zh) 一种城市人口结构分析方法、系统、终端及介质
CN118035324A (zh) 数据处理查询方法、装置、服务器及介质
CN114510987B (zh) 一种比特币交易地址的标注方法和装置
CN117195146A (zh) 用户匹配的方法、装置、电子设备和计算机可读介质
CN117114171A (zh) 社区燃气管道泄漏事故应急资源预测方法、装置及设备
CN116703132A (zh) 共享车辆动态调度的管理方法、装置及计算机设备
CN119377338B (zh) 地理对象处理方法、装置、电子设备和计算机存储介质
CN115495537A (zh) 一种地址描述信息处理方法及设备
CN114513550A (zh) 一种地理位置信息的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination