[go: up one dir, main page]

CN111368057B - 词组查询方法、装置、计算机设备以及存储介质 - Google Patents

词组查询方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN111368057B
CN111368057B CN202010148769.3A CN202010148769A CN111368057B CN 111368057 B CN111368057 B CN 111368057B CN 202010148769 A CN202010148769 A CN 202010148769A CN 111368057 B CN111368057 B CN 111368057B
Authority
CN
China
Prior art keywords
storage space
characteristic value
target
character set
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010148769.3A
Other languages
English (en)
Other versions
CN111368057A (zh
Inventor
张东轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010148769.3A priority Critical patent/CN111368057B/zh
Publication of CN111368057A publication Critical patent/CN111368057A/zh
Application granted granted Critical
Publication of CN111368057B publication Critical patent/CN111368057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种词组查询方法、装置、计算机设备以及存储介质,属于数据处理领域。方法包括:将待查询的目标文本中的第一字符组映射为第一特征值;基于第一特征值,确定第一字符组对应的第一存储空间的标识,其中,第一存储空间内存储有多个关键词组的特征值;将目标文本的第二字符组映射为第二特征值,其中,第二字符组包括第一字符组;基于第一存储空间的标识在第一存储空间内查询第二特征值,若在第一存储空间查询到与第二特征值相同的特征值,将第二字符组确定为目标文本的关键词组。本申请通过待查询文本的第一字符组确定查询词组的第一存储空间,并在第一存储空间内查询相应的词组,缩小了查询范围,提高了查询效率。

Description

词组查询方法、装置、计算机设备以及存储介质
技术领域
本申请涉及数据处理领域,特别涉及一种词组查询方法、装置、计算机设备以及存储介质。
背景技术
随着互联网技术的发展,各种类型的应用程序涌现,用户会根据自身不同的需求选用不同的应用程序。若某个用户喜爱与其他用户进行内容分享,那么该用户可能会将自己创作的内容通过社交类应用程序展现给其他用户,通常情况下,为了防止该用户发表一些违反法律或道德的内容,社交类应用程序会对该用户发表的内容进行审核,确定该内容中是否存在违反法律或道德的词汇或短句。
相关技术中,社交类应用程序往往会提前设置一个关键词词典,该关键词词典中存储着一些可能会违反法律或道德的关键词组。社交类应用程序会基于该关键词词典对用户发表的内容进行暴力匹配,从而确定用户发表的内容中是否存在可能会违反法律或道德的词组,若检测到用户发表的内容中存在某些关键词组,则可能该用户发表的内容存在违反法律或道德的部分,需要进行删除或提示用户修改后进行发表。
但是在这种处理方式中,每次仅能对一个关键词组进行查询,若用户发表的内容中存在多个关键词组,则需要计算机设备多次遍历用户发表的内容,导致计算机设备消耗大量的计算资源,关键字的查询的效率不高。
发明内容
本申请实施例提供了一种词组查询方法、装置、计算机设备以及存储介质,可以提高词组查询的效率。所述技术方案如下:
一方面,提供了一种词组查询方法,所述方法包括:
将待查询的目标文本中的第一字符组映射为第一特征值;
基于所述第一特征值,确定所述第一字符组对应的第一存储空间的标识,其中,所述第一存储空间内存储有多个关键词组的特征值;
将所述目标文本的第二字符组映射为第二特征值,其中,所述第二字符组包括所述第一字符组;
基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值,若在所述第一存储空间查询到与所述第二特征值相同的特征值,将所述第二字符组确定为所述目标文本的关键词组。
一方面,提供了一种词组查询装置,所述装置包括:
映射模块,用于将待查询的目标文本中的第一字符组映射为第一特征值;
标识确定模块,用于基于所述第一特征值,确定所述第一字符组对应的第一存储空间的标识,其中,所述第一存储空间内存储有多个关键词组的特征值;
所述映射模块,还用于将所述目标文本的第二字符组映射为第二特征值,其中,所述第二字符组包括所述第一字符组;
查询模块,用于基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值,若在所述第一存储空间查询到与所述第二特征值相同的特征值,将所述第二字符组确定为所述目标文本的关键词组。
在一种可能的实施方式中,所述查询模块还用于若所述第二存储空间内存储的特征值为从小到大的顺序排列,则确定所述第二存储空间内存储的特征值的序号;对所述第二存储空间内存储的特征值的最大序号和最小序号的平均值进行取整,得到目标序号;若所述第二特征值与所述目标序号对应的特征值不同,则基于所述第二特征值和所述目标序号对应的特征值的数值大小关系,确定在所述第二存储空间内查询所述第二特征值的范围;在所述范围内查询所述第二特征值。
在一种可能的实施方式中,所述标识确定模块,用于对所述第一特征值进行取模运算,得到所述第一特征值的余数,将所述余数确定为所述第一字符组对应的第一存储空间的标识。
在一种可能的实施方式中,所述查询模块用于采用与映射为所述第二特征值不同的映射方法,将所述第二字符组映射为第三特征值;基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值和第三特征值,若在所述第一存储空间查询到与所述第二特征值和第三特征值分别相同的两个特征值,且所述两个特征值指向同一个关键词组,将所述第二字符组确定为所述目标文本的关键词组。
在一种可能的实施方式中,所述查询模块还用于若在所述第一存储空间中查询到与所述第二特征值相同的特征值,确定与所述第二特征值对应的权重,其中,所述权重用于表示所述关键词组查询时的优先级;若所述权重符合目标条件,将所述第二字符组确定为所述目标文本的关键词组。
在一种可能的实施方式中,所述映射模块还用于将所述关键词组中的第一目标字符组映射为第一目标特征值;
所述装置还包括:
运算模块,用于对所述第一目标特征值进行取模运算,得到所述第一目标特征值的余数,将所述余数相同的关键词组存储在所述第一存储空间内,其中,所述第一存储空间内包括多个第二存储空间;
存储模块,用于在所述第一存储空间中,将字符数量相同的关键词组存储在同一个第二存储空间内。
在一种可能的实施方式中,所述存储模块用于将所述字符数量相同的关键词组映射为第二目标特征值,将所述第二目标特征值存储在所述同一个第二存储空间内。
在一种可能的实施方式中,所述存储模块还用于采用与映射为所述第二目标特征值不同的映射方法,将所述字符数量相同的关键词组映射为第三目标特征值;将所述第二目标特征值和第三目标特征值绑定存储在所述同一个第二存储空间内。
在一种可能的实施方式中,所述存储模块还用于将所述第二特征值按照从小到大的顺序排列,将排列后的第二目标特征值存储在所述同一个第二存储空间内。
在一种可能的实施方式中,所述装置还包括:
权重设置模块,用于为所述关键词组设置权重,将所述权重与所述关键词组绑定存储在所述同一个第二存储空间内。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现所述词组查询方法所执行的操作。
一方面,提供了一种存储介质,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现所述词组查询方法所执行的操作。
本申请实施例提供的技术方案,通过待查询文本的第一字符组确定查询词组的第一存储空间,并在第一存储空间内查询是否存在相应的词组,缩小了词组的查询范围,提高了词组的查询效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境示意图;
图2是本申请实施例提供的一种用户使用即时通讯软件进行在线聊天的软件界面示意图;
图3是本申请实施例提供的一种词组的查询方法和词组的存储方法的流程框架结构的示意图;
图4是本申请实施例提供的一种词组存储方法流程图;
图5是本申请实施例提供的一种词组查询方法流程图;
图6是本申请实施例提供的一种词组查询装置结构示意图;
图7是本申请实施例提供的一种计算机设备装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上,例如,多个第一存储空间是指两个或两个以上的第一存储空间。
首先对本申请实施例中涉及的名词做出解释:
取模运算,主要是用于计算机术语中,C语言中提供的取模运算(%)是用来求两个整数相除的余数。
素数是指大于1的自然数中,除了1和它本身以外不再有其他因数的自然数,也被称为质数。
本申请实施例提供的方案涉及关键词组查询等技术,具体通过如下实施例进行说明:
图1是本发明实施例提供的一种词组查询方法的实施环境的示意图,参见图1,该实施环境中包括计算机设备110和服务器140。
计算机设备110通过无线网络或有线网络与服务器110相连。计算机设备110可以是智能手机、平板电脑、便携计算机等设备。计算机设备110安装和运行有支持词组查询技术的应用程序。该应用程序可以是社交应用类应用程序以及浏览器类应用程序等。示例性的,计算机设备110是用户使用的计算机设备,计算机设备110中运行的应用程序内登录有用户账号。
可选地,服务器140包括:接入服务器、词组查询服务器和数据库。接入服务器用于为计算机设备110提供接入服务。词组查询服务器用于提供词组查询有关的后台服务。该数据库可以包括关键词组数据库以及用户信息数据库等,当然,还可以基于服务器所提供的不同服务可以对应于不同数据库,词组查询服务器可以是一台或多台。当词组查询服务器是多台时,存在至少两台词组查询服务器用于提供不同的服务,和/或,存在至少两台词组查询服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。
计算机设备110可以泛指多个计算机设备中的一个,本实施例仅以计算机设备110来举例说明。
本领域技术人员可以知晓,上述计算机设备的数量可以更多或更少。比如上述计算机设备可以仅为一个,或者上述计算机设备为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他计算机设备。本发明实施例对计算机设备的数量和设备类型不加以限定。
本申请实施例提供的词组查询方法,可以应用在社交应用对用户发表的内容进行检测,从而确定用户发表的内容是否存在某些指定内容,例如,是否存在违反法律或者道德的内容等,还可以应用在聊天表情推荐、标签添加以及内容推荐等方面。下面基于所涉及的可能实现场景进行示例性说明。
第一种可能的实现场景,用户使用即时通讯软件进行在线聊天。参见图2,210为聊天的对话框,220推荐表情显示的位置,230为输入框,240为键盘。用户可以在应用程序的输入框230中输入相应的内容,计算机设备可以采用本申请实施例提供的词组查询方法对用户输入的内容进行词组查询,确定用户输入的内容中是否存在关键词组,若存在关键词组,则计算机设备可以将关键词组对应的聊天表情显示在指定位置220,用户可以通过点击该聊天表情的显示位置220,将该聊天表情发送至目标用户。
第二种可能的实现场景,用户使用社交软件进行内容创作和发表。当计算机设备接收到一篇用户创作的文章后,可以采用本申请实施例提供的词组检测方法对用户创作的文章进行词组检测,确定该文章中是否存在关键词组,若存在关键词组,则计算机设备可以将关键词组确定为该文章的标签,便于后续基于文章的标签向不同用户推荐相应的文章。
第三种可能的实现场景,基于用户的浏览行为向用户推荐内容。当用户浏览某个文章的时长大于目标时长时,计算机设备可以确定该用户对当前浏览的文章感兴趣,那么计算机设备可以对用户当前浏览的文章采用本申请实施例提供的词组检测方法,确定该文章中是否存在关键词组,若存在关键词组,则计算机设备可以基于关键词组确定其他包含该关键词的文章,并在用户浏览该文章之后,向用户推荐其他包含该关键词组的文章。
在本申请实施例中,词组的查询方法是与词组的存储方法相对应的,词组的查询方法和词组的存储方法的流程框架结构的示意图可以参见图3,在之后介绍词组的查询方法和词组的存储方法的过程中,均可以参照图3。为了对本申请实施例提供的词组查询方法的进行更加清楚的说明,首先对词组的存储方法进行介绍。图4是本申请实施例提供的一种词组的存储方法的流程图,参见图3和图4,方法包括:
401、计算机设备将关键词组中的第一目标字符组映射为第一目标特征值。
其中,关键词组可以是包含某些特定内容的词组,例如某些可能违反法律或者道德的词组;也可以是与聊天表情对应的词组,例如“开心”可以对应于一个具体的聊天表情,那么可以将“开心”确定为一个关键词组;还可以是热度较高的词组,其中,热度较高可以是指互联网上用户搜索次数大于第一目标次数的词组,或者是使用计算机设备的用户搜索次数大于第二目标次数的词组。
在一种可能的实施方式中,计算机设备可以将关键词组的前目标数量个字符作为第一目标字符组,对第一目标字符组进行特征值运算,得到第一目标特征值。
其中,目标数量可以根据全部关键词组的字符数量的平均数量进行设定,举例来说,若字符数量的平均数量小于2,那么可以将目标数量设置为1;若字符数量的平均数量大于2,那么可以将目标数量设置为2。当然,目标数量也可以是其他数量,本申请实施例对于目标数量的具体数字不做限定。而所采取的特征值算法用于将字符组唯一映射为一串字符串,该特征值算法可以为哈希算法或数字摘要算法(MD5)。该哈希算法可以为安全散列算法1(Secure Hash Algorithm 1,SHA-1)、安全散列算法224(Secure Hash Algorithm 224,SHA-224)、安全散列算法256(Secure Hash Algorithm 256,SHA-256)、安全散列算法384(Secure Hash Algorithm 384,SHA-384)、安全散列算法512(Secure Hash Algorithm512,SHA-512)以及MD5信息摘要算法(MD5 Message-Digest Algorithm,MD5)等,本申请实施例对于哈希算法的类型不做限定。
下面以关键词组为“微信运动”,关键词组中的第一目标字符组为“微信”,特征值算法为SHA-1为例对步骤401进行说明:
在一种可能的方式中,计算机设备可以采用SHA-1算法将关键词组中的第一目标字符组“微信”算法映射为第一目标特征值“68406df395e4974a29b5f71b5637e8583ad44237”。
除此之外,在一种可能的实施方式中,在步骤401之前,计算机设备可以从关键词词典中获取关键词组,并基于获取到的关键词组执行步骤401。
其中,关键词词典可以由计算机设备自动获取关键词组生成,也可以由计算机设备从其他设备上获取,还可以由技术人员手动将关键词组输入计算机设备,并由计算机设备生成相应的关键词词典,本申请实施例对于关键词词典的生成方式不做限定。
下面以关键词词典为计算机设备自动生成为例进行说明:
在一种可能的实施方式中,计算机设备可以从互联网上获取热度较高的词组,将获取到的词组作为关键词组,将同一类型的关键词组进行组合,得到关键词词典。具体来说,计算机设备可以基于爬虫技术,从各类网页上获取热度较高的词组,将获取到的词组作为关键词组,并基于获取关键词组的文本对应的类型,确定关键词组的类型,将同一类型的关键词组进行组合,得到关键词词典。其中,文本对应的类型可以是指文本的标签,例如,“时事新闻”、“娱乐新闻”以及“体育新闻”等。需要说明的是,关键词词典中存储的关键词词组可以是实时更新的,例如计算机设备可以将互联网上实时出现的新的热度较高的词组添加入关键词词典,以使得关键词词典的内容可以保持最新的状态。
402、计算机设备对第一目标特征值进行取模运算,得到第一目标特征值的余数,将余数相同的关键词组存储在对应的第一存储空间内。
其中,第一存储空间可以为计算机设备存储关键词组的存储空间,第一存储空间的数量可以为多个,每个第一存储空间均可以对应于一个数字,该数字也即是第一存储空间的标识。
在一种可能的实施方式中,计算机设备可以基于与第一存储空间数量对应的素数,对第一目标特征值进行取模运算,以得到余数,基于余数与第一存储空间的标识的关系,将余数相同的第一目标特征值存储在对应的第一存储空间内。在这种实现方式下,计算机设备可以基于关键词组对应的第一目标特征值将关键词组存储在对应的第一存储空间内。后续进行词组查找的过程中,计算机设备就可以基于待查询词组的第一目标特征值,确定待查询词组所对应的第一存储空间,并在相应的第一存储空间内查询待查询词组,提高词组的查询效率。
在执行步骤402之前,计算机设备还可以基于关键词词典中关键词组的数量,确定第一存储空间的数量,基于第一存储空间的数量,确定取模运算时所需的素数。
下面以关键词词典中关键词组的数量为10000,第一存储空间的数量为97,为例对上述步骤进行说明:
在一种可能的实施方式中,计算机设备可以基于关键词词典中关键词组的数量10000,将第一存储空间的数量确定为97,基于第一存储空间的数量97,将取模运算时所需的素数确定为97,并基于素数97,对第一目标特征值进行取模运算。若第一目标特征值为80,则可以得到进行取模运算之后的余数为80,那么计算机设备可以确定标识为80的第一存储空间的存储位置,并将第一目标特征值80对应的关键词组存储在标识为80的第一存储空间内。若第一目标特征值为999,则计算机设备可以基于素数97对999进行取模运算,得到999对应的余数为29,那么计算机设备可以确定标识为29的第一存储空间的存储位置,并将第一目标特征值999对应的关键词组存储在标识为29的第一存储空间内;若计算机设备基于素数97对另一个第一目标特征值进行取模运算之后也得到了余数29,那么计算机设备可以将该第一目标特征值存入与第一目标特征值999同一个第一存储空间内。
在另一种可能的实施方式中,计算机设备可以将关键词组映射为特征值,并基于关键词组的第一目标特征值对应的第一存储空间的标识,将关键词组对应的特征值存储在相应的第一存储空间内。
下面对计算机设备基于关键词词典中关键词组的数量确定第一存储空间的数量的方法进行说明:
在一种可能的实施方式中,计算机设备可以为第一存储空间设置最大存储容量,最大存储容量可以为存储关键词组的数量。计算机设备可以基于关键词词典中关键词组的数量,将用于存储关键词组的存储空间划分为多个第一存储空间。其中,最大存储容量可以根据计算机设备的实际情况进行设定,例如为100、200或300,存储容量越高,单个第一存储空间内存储的关键词组的数量也就越多,后续在第一存储空间内查找词组的过程中可能会耗费更多的时间;最大存储容量越低,那么第一存储空间的数量也就需要更多,后续在基于标识确定对应的第一存储空间时可能会耗费更多的时间,因此存储容量可以根据计算机设备的实际情况进行设定。
例如,关键词词典中存在10000个关键词组,第一存储空间的最大存储容量为200,为了保证后续关键词组的更新,那么计算机设备可以将存储空间划分为97个第一存储空间,每个第一存储空间对应一个存储空间标识,该存储空间的标识可以与计算机设备对某个第一目标特征值进行取模运算后得到的余数相对应。在这种实现方式下,计算机设备将存储空间进行划分为多个第一存储空间,并为每个第一存储空间赋予一个存储空间标识,在后续的词组查询过程中,计算机设备可以基于待查询词组对应的余数确定相应的第一存储空间,缩小了词组查询的范围,提高了词组查询的效率。
需要说明的是,除了步骤402中对第一特征值进行取模运算,得到第一目标特征值的余数,将余数相同的关键词组存储在对应的第一存储空间内的方法之外,计算机设备还可以对第一特征值进行其他类型的运算,例如归一化,取余等方法,对第一特征值进行运算,得到某个较为稳定的稳定且存在一定取值范围的数值,并基于该数值确定对应的第一存储空间,具体的原理可以与步骤402中的原理属于同一构思,在此不再赘述。
403、计算机设备将字符数量相同的关键词组存储在第一存储空间中的同一个第二存储空间内。
在一种可能的实施方式中,每个第一存储空间内可以有多个第二存储空间,在计算机设备基于关键词组对应的余数将关键词组存储在不同第一存储空间内后,还可以在任一第一存储空间内,确定该第一存储空间内存储的多个关键词组所包含的字符数量,将字符数量相同的关键词组存储在该第一存储空间内的同一个第二存储空间内。在这种实现方式下,计算机设备可以基于字符数量对关键词词典中的关键词组进行分类存储,在后续的词组查找过程中,计算机设备确定第一存储空间之后,可以基于关键词组所包含的字符数量,在第一存储空间内确定相应的第二存储空间,并在该第二存储空间内查询关键词组,可以进一步提高词组查询的效率。
在另一种可能的实施方式中,计算机设备可以对第一存储空间内存储的关键词组进行特征值运算,将第一存储空间内存储的关键词组映射为第二目标特征值,将字符数量相同的关键词组所对应的第二目标特征值存储在同一个第二存储空间内,其中,将关键词组映射为第二目标特征值的方法可以与得到第一目标特征值的方法同理。举例来说,某个第一存储空间内存储有三个关键词组“微信”、“微信运动”以及“生活”,计算机设备基于哈希算法将“微信”映射为“123”,将“微信运动”映射为“321”,将“生活”映射为“234”,由于“微信”和“生活”这两个关键词组中包含的字符数量均为2个,计算机设备可以将“微信”和“生活”对应的第二特征值“123”和“234”存储在同一个第二存储空间内,将“微信运动”对应的特征值存储在另一个第二存储空间内。
下面对本申请实施例中计算机设备将第一存储空间划分成多个第二存储空间的方法进行说明。
在一种可能的实施方式中,计算机设备可以获取存储在第一存储空间内的每个关键词组的字符数量,基于每个关键词组的字符数量,将第一存储空间划分为多个第二存储空间,每个第二存储空间均可以对应于一个关键词组的字符数量,相同字符数量的关键词组存储在同一个第二存储空间内,不同第二存储空间内存储有不同字符数量的关键词组。在这种实现方式下,计算机可以进一步将存储空间进行划分,便于关键词组的分类存储。
除此之外,若计算机设备将关键词组映射为了第二目标特征值,且基于关键词组的字符数量将第二目标特征值存储在第二存储空间内,在一种可能的实施方式中,计算机设备可以按照第二特征值的首个字符的大小,将存储在任一第二存储空间内存储的第二目标特征值按照从小到大的顺序排列。在此之后,计算机设备还可以为任一第二存储空间内存储的第二特征值按照其排列循序设置对应序号,例如计算机设备将首个字符最小的第二特征值的序号设置为1,将首个字符第二小的第二特征值的序号设置为2,若两个第二特征值的首个字符的大小相同,那么计算机设备可以基于这两个第二特征值的第二个字符的大小,确定二者的序号,以此类推。在一些实施方式中,第二目标特征值中可能同时存在字母和数字,计算机设备可以为字母和数字设置一个大小关系,例如字母的大小就是a-z逐渐增大,a最小,z最大;数字的大小就可以按照0-9的顺序进行排列,0最小,9最大;字母小于数字,即z<0,当然上述大小关系仅仅是为了便于理解而进行的说明,在其他实施方式中,还可能存在其他的大小关系,本申请实施例对此不做限定。在这种实现方式下,计算机设备可以将第二存储空间内的第二目标特征值按照一定的顺序存储在第二存储空间内,提高后续关键词组的查找效率。
在另一种可能的实施方式中,计算机设备可以基于与映射第二目标特征值不同的映射方法,对第一存储空间内存储的关键词组进行特征值运算,将第一存储空间内存储的关键词组映射为第三目标特征值,其中,将关键词组映射为第三目标特征值的方法可以与得到第一目标特征值的方法类似。计算机设备可以将第三目标特征值与该关键词组对应的第二目标特征值绑定存储在同一个第二存储空间内。举例来说,若将关键词组映射为第二目标特征值的方法为SHA-224,将关键词组映射为第三目标特征值的方法为SHA-384,关键词组为“微信运动,”那么计算机设备可以基于将关键词组“微信运动”映射为第二目标特征值“0bf923fae4d8cd009ca353d54900776bc75546e6c96ccc4d4e6f1c6d,”将关键词组“微信运动”映射为第三目标特征值“a718e95ecf9a7a9d1b00c5aa9a6f033684d0abd0dbad4e35a55f02b8315fc2b8e6802f280a2b450b812291b44287faf2,”将第三目标特征值和第二目标特征值绑定存储在同一个第二存储空间内。在这种实现方式下,可以防止关键词词典中关键词组的数量过大导致计算机设备将不同的关键词组映射为同一个第二目标特征值而导致的冲突,提高了关键词组存储的精准度。
进一步地,计算机设备还可以为关键词组设置权重,将权重与关键词组绑定存储在同一个第二存储空间内,其中,权重用于表示关键词组查询时的优先级。具体来说,若关键词词典中存在关键词组“微信”和“微信运动”,计算机设备可以为“微信”设置权重0.6,为“微信运动”设置权重0.7,可以表示在查询过程中,“微信运动”的优先级要高于“微信”,也即是在后续的词组查询过程中,计算机设备同时查询到“微信运动”和“微信”时,会将“微信运动”作为关键词组,而不会将“微信”作为关键词组。
通过上述技术方案,计算机设备可以将关键词词典中的关键词组按照所包含字符数量不同,分别存储在不同的第二存储空间内,可以提高后续在目标文本中查询关键词组的效率。
上述步骤401-403是本申请实施例提供的一种词组查询方法对应的关键词组存储方法,步骤501-步骤504是本申请实施例提供的一种词组查询方法,结合步骤401-403可以更加清楚的理解本申请的技术方案。图5是本申请实施例提供的一种词组查询方法的流程图。参见图3和图5,方法包括:
501、计算机设备将待查询的目标文本的第一字符组映射为第一特征值。
其中,待查询的目标文本可以为用户输入的文本,也可以为用户正在浏览的文本,本申请实施例对此不做限定。第一字符组为目标文本的一部分,第一字符组中包含目标数量的字符,目标数量可以与计算机设备存储关键词词典时的第一目标字符组中字符的数量相同。计算机设备将第一字符组映射为第一特征值时所采用的映射方法与存储关键词词典时将第一目标字符组映射为第一目标特征值的方法相同。
在一种可能的实施方式中,计算机设备可以从待查询的目标文本的开头截取目标数量的字符作为第一字符组,对第一字符组进行特征值运算,得到与第一字符组对应的第一特征值。例如,若待查询的目标文本为“微信运动改变你的生活方式,”那么计算机设备可以从待查询的目标文本的开头截取2个字符“微信”作为第一字符组,基于哈希算法将“微信”映射为第一特征值“68406df395e4974a29b5f71b5637e8583ad44237”。上述是以采用哈希算法将第一字符组映射为第一特征值为例进行说明的,在其他实现方式中,也可以采用其他的算法将第一字符组映射为第一特征值,例如采用MD5信息摘要算法(MD5 Message-Digest Al gorithm,MD5)来将第一字符组映射为第一特征值,只需要保持与存储关键词词典时将第一目标字符组映射为第一目标特征值的方法相同即可。
在一种可能的实施方式中,若本申请提供的技术方案应用在聊天表情推荐,计算机设备可以实时检测用户输入的字符,当用户输入的字符数量等于目标数量时,计算机设备可以将用户此时输入的全部字符本作为第一字符组,并将第一字符组映射为第一特征值。
502、计算机设备对第一特征值进行取模运算,得到第一特征值的余数,将余数确定为第一字符组对应的第一存储空间的标识,其中,第一存储空间内存储有多个关键词组的特征值。
在一种可能的实施方式中,在计算机设备对第一特征值进行取模运算之前,计算机设备可以基于存储关键词词典中的关键词组时确定的素数,对第一特征值进行取模运算,得到的余数,将该余数作为第一存储空间的标识。举例来说,若计算机设备计算得到第一特征值为509,存储关键词词典中的关键词组时确定的素数为97,可以得到第一特征值进行取模运算后得到的余数为24,计算机设备可以将24作为第一特征值对应的第一存储空间的标识。
需要说明的是,步骤502实际上是以计算机设备对第一特征值进行取模运算得到第一特征值对应的余数为例进行说明的,在其他实施方式中,若计算机设备采用其他类型的运算,例如归一化,取余等方法,对第一特征值进行运算,得到某个较为稳定的稳定且存在一定取值范围的数值,将该数值作为第一存储空间的标识,那么在进行词组查询的过程中,计算机设备也需要采用与词组存储时相同的方法,对第一特征值进行运算,并将得到的数值作为第一存储空间的标识。
503、计算机设备将目标文本的第二字符组映射为第二特征值,其中,第二字符组包括第一字符组。
其中,计算机设备将第二字符组映射为第二特征值的方法与计算机设备存储关键词词典时将字符数量相同关键词组映射为第二目标特征值的方法相同。
在一种可能的实施方式中,计算机设备可以在待查询的目标文本的第一字符组之后的字符串中截取至少一个字符,基于截取的至少一个字符和第一字符组生成第二字符组。计算机设备可以对目标文本的第二字符组进行特征运算,得到与第二字符组对应的第二特征值。举例来说,若待查询的目标文本为“微信运动改变你的生活方式,”计算机设备从目标文本中截取的第一字符组为“微信,”那么计算机设备可以从目标文本的第一字符组之后的字符串“运动改变你的生活方式”中截取至少一个字符,例如截取“运动”计算机设备可以将新截取的字符“运动”和第一字符组组成第二字符组“微信运动”。计算机设备可以对第二字符组“微信运动”进行哈希运算,得到与“微信运动”对应的第二特征值“b196d0029bcd11d80d7e670d552c29b1b3c3a9a1”。
504、计算机设备基于第一存储空间的标识,在第一存储空间内查询第二特征值,若在第一存储空间查询到与第二特征值相同的特征值,将第二字符组确定为关键词组。
在一种可能的实施方式中,计算机设备可以基于第一存储空间的标识,确定第一存储空间的存储位置,遍历第一存储空间内存储的特征值,以在第一存储空间内查询第二特征值,若在第一存储空间内遍历到与第二特征值相同的特征时,则表示第二特征值对应的第二字符组与关键词词典中的关键词组相同,计算机设备可以将第二字符组确定为关键词组。例如,若计算机设备将“微信运动”确定为目标文本的第二字符组,将“微信运动”映射为了第二特征值“b196d0029bcd11d80d7e670d552c29b1b3c3a9a1,”第二字符组所包括的第一字符组对应的余数为29,那么计算机设备可以将标识为29的第一存储空间确定为目标存储空间,遍历目标存储空间,在目标存储空间内查询与第二特征值相同的特征值,若目标存储空间内存储有特征值“b196d0029bcd11d80d7e670d552c29b1b3c3a9a1,”那么计算机设备可以将第二字符组“微信运动”确定为关键词组。
若计算机设备在存储关键词组时是采用第二目标特征值与第三目标特征值绑定的方式,在一种可能的实施方式中,计算机设备可以采用与映射为第二特征值不同的映射方法,将第二字符组映射为第三特征值。计算机设备可以基于第一存储空间的标识,确定第一存储空间的存储位置,遍历第一存储空间内存储的特征值,以在第一存储空间内查询第二特征值,若在第一存储空间内遍历到与第二特征值相同的特征值时,则确定与该特征值绑定的第三目标特征值是否与第三特征值相同,若该第三目标特征值与第三特征值也相同,可以将第二字符组确定为关键词组。当然,计算机设备也可以在第一存储空间内先查询第三特征值再查询第二特征值,本申请实施例对此不做限定。在这种实现方式下,可以防止第二字符组的数量过大导致计算机设备将不同的第二字符组映射为同一个第二特征值,提高了关键词组查询的精准度。
若计算机设备在存储关键词组时按照关键词组的字符数量将第一存储空间划分成了多个第二存储空间,在一种可能的实施方式中,计算机设备可以基于第一存储空间的标识,确定第一存储空间的存储位置,计算机设备可以在第一存储空间中确定与第二字符组的字符数量对应的第二存储空间,在该第二存储空间内查询第二特征值,若在第二存储空间内查询到第二特征值,则将第二字符组确定为关键词组。举例来说,若第二字符组的字符数量为4,计算机设备可以在第一存储空间内确定与字符数量为4对应的第二存储空间,并该在第二存储空间查询第二字符组对应的第二特征值,若遍历到与第二特征值相同的特征值,则可以将第二字符组确定为关键词组。
若计算机设备在按照从小到大的顺序排列将关键词组存储在第二存储空间内,在一种可能的实施方式中,计算机设备可以确定第二存储空间内存储的特征值的序号,对第二存储空间内存储的特征值的最大序号和最小序号的平均值进行取整,得到目标序号。若第二特征值与目标序号对应的特征值不同,则计算机设备可以基于第二特征值和目标序号对应的特征值的数值大小关系,确定在第二存储空间内查询第二特征值的范围,在该范围内查询第二特征值,其中,该范围为最小序号对应的特征值到目标序号对应的特征值之间的所有特征值,或,目标序号对应的特征值到最大序号对应的特征值之间的所有特征值。
举例来说,若第二存储空间内存储有10个特征值,且这10个特征值是按照从小到大的顺序排列的,计算机设备可以将这10个特征值的序号确定为1-10。计算机设备可以计算最大序号10与最小序号1的平均值,也即是5.5,对5.5进行取整,例如6,那么计算机设备可以先比较第二特征值与序号为6的特征值是否相同。若相同,计算机设备可以将第二字符组确定为关键词组;若不相同计算机设备可以比较第二特征值的首个字符与序号为6的特征值的首个字符,若第二特征值的首个字符大于序号为6的特征值的首个字符,则将查询范围确定为序号6到序号10对应的特征值;否则将查询范围确定为序号1到序号6序号对应的特征值。特征值的排列方法可以参见步骤303,在此不再赘述。
若计算机设备在存储关键词组时将关键词组对应的权重与关键词组对应的特征值绑定存储,在一种可能的实施方式中,计算机设备在第一存储空间中查询到第二特征值之后,可以获取与第二特征值对应的权重。若权重符合目标条件,计算机设备可以将第二字符组确定为关键词组,否则计算机设备确定该第二字符组不是关键词组,进行下一个第二字符组的查询。举例来说,若计算机设备在第一存储空间内查询到两个第二字符组“微信运动生活”和“微信运动”,计算机设备确定“微信运动生活”的权重为0.7,“微信运动”的权重为0.6,由于0.7>0.6,则计算机设备可以将“微信运动生活”确定为关键词组。
在一种可能的实施方式中,若本申请提供的技术方案应用在社交应用对用户发表的内容进行检测,则关键词组可以为一些可能会违反法律或道德的词组,计算机设备采用本申请实施例提供的词组查询方法,可以快速确定用户发表内容的关键词组,提高检测效率。
在一种可能的实施方式中,若本申请提供的技术方案应用在聊天表情推荐,则关键词组可以为一些对应于聊天表情的词组,例如“谢谢”、“你好”再见“再见”等词组,当计算机将第二字符组确定为关键词组后,可以调用与关键词组对应的聊天表情,并将聊天表情推荐给用户。
通过本申请提供的技术方案,计算机设备可以从待查询的目标文本中截取字符数量较少第一字符组,并将第一字符组映射为第一特征值,随后对第一特征值进行取模运算,基于取模运算得到的余数确定第一字符组对应的第一存储空间,也就是通过第一字符组缩小了查询范围,提高词组的查询效率。之后,计算机设备还可以基于包含第一字符组的待查询文本的第二字符组中的字符数量,在第一存储空间内确定相应的第二存储空间,将第二字符组映射为第二特征值,在第二存储空间中查询第二特征值,若查询到与第二特征值相同的特征值,则将第二字符组确定为关键词组,基于字符数量在第一存储空间内确定相应的第二存储空间,进一步缩小了词组的查询范围,提高词组的查询效率,减少了计算资源的消耗。
在实验过程中,采用C语言作为编译语言,通过下述代码进行了实验效果的验证:
实验结果表明,采用本申请实施例提供的词组匹配方法,在匹配正确率上可以达到100%,匹配过程中占用的存储空间和消耗的时间都要明显少于其他方法。
图6是本申请实施例提供的一种词组查询装置的结构示意图,参见图5,装置包括:映射模块601、标识确定模块602以及查询模块603。
映射模块601,用于将待查询的目标文本中的第一字符组映射为第一特征值。
标识确定模块602,用于基于第一特征值,确定第一字符组对应的第一存储空间的标识,其中,第一存储空间内存储有多个关键词组的特征值。
映射模块601,还用于将目标文本的第二字符组映射为第二特征值,其中,第二字符组包括第一字符组。
查询模块603,用于基于第一存储空间的标识在第一存储空间内查询第二特征值,若在第一存储空间查询到与第二特征值相同的特征值,将第二字符组确定为目标文本的关键词组。
在一种可能的实施方式中,查询模块用于基于第一存储空间的标识,确定第一存储空间对应的存储位置,其中,第一存储空间内包括多个第二存储空间,不同第二存储空间对应于不同的字符数量。在第一存储空间中确定与第二字符组的字符数量对应的第二存储空间。在与第二字符组的字符数量对应的第二存储空间内查询与第二特征值相同的特征值。
在一种可能的实施方式中,查询模块还用于若第二存储空间内存储的特征值为从小到大的顺序排列,则确定第二存储空间内存储的特征值的序号。对第二存储空间内存储的特征值的最大序号和最小序号的平均值进行取整,得到目标序号。若第二特征值与目标序号对应的特征值不同,则基于第二特征值和目标序号对应的特征值的数值大小关系,确定在第二存储空间内查询第二特征值的范围。在范围内查询第二特征值。
在一种可能的实施方式中,标识确定模块,用于对第一特征值进行取模运算,得到第一特征值的余数,将余数确定为第一字符组对应的第一存储空间的标识。
在一种可能的实施方式中,查询模块用于采用与映射为第二特征值不同的映射方法,将第二字符组映射为第三特征值。基于第一存储空间的标识在第一存储空间内查询第二特征值和第三特征值,若在第一存储空间查询到与第二特征值和第三特征值分别相同的两个特征值,且两个特征值指向同一个关键词组,将第二字符组确定为目标文本的关键词组。
在一种可能的实施方式中,查询模块还用于若在第一存储空间中查询到与第二特征值相同的特征值,确定与第二特征值对应的权重,其中,权重用于表示关键词组查询时的优先级。若权重符合目标条件,将第二字符组确定为目标文本的关键词组。
在一种可能的实施方式中,映射模块还用于将关键词组中的第一目标字符组映射为第一目标特征值。
装置还包括:
运算模块,用于对第一目标特征值进行取模运算,得到第一目标特征值的余数,将余数相同的关键词组存储在第一存储空间内,其中,第一存储空间内包括多个第二存储空间。
存储模块,用于在第一存储空间中,将字符数量相同的关键词组存储在同一个第二存储空间内。
在一种可能的实施方式中,存储模块用于将字符数量相同的关键词组映射为第二目标特征值,将第二目标特征值存储在同一个第二存储空间内。
在一种可能的实施方式中,存储模块还用于采用与映射为第二目标特征值不同的映射方法,将字符数量相同的关键词组映射为第三目标特征值。将第二目标特征值和第三目标特征值绑定存储在同一个第二存储空间内。
在一种可能的实施方式中,存储模块还用于将第二特征值按照从小到大的顺序排列,将排列后的第二目标特征值存储在同一个第二存储空间内。
在一种可能的实施方式中,装置还包括:
权重设置模块,用于为关键词组设置权重,将权重与关键词组绑定存储在同一个第二存储空间内。
需要说明的是:上述实施例提供的词组查询装置在词组查询时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词组查询装置与词组查询方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本申请提供的技术方案,计算机设备可以从待查询的目标文本中截取字符数量较少第一字符组,并将第一字符组映射为第一特征值,随后对第一特征值进行取模运算,基于取模运算得到的余数确定第一字符组对应的第一存储空间,也就是通过第一字符组缩小了查询范围,提高词组的查询效率。之后,计算机设备还可以基于包含第一字符组的待查询文本的第二字符组中的字符数量,在第一存储空间内确定相应的第二存储空间,将第二字符组映射为第二特征值,在第二存储空间中查询第二特征值,若查询到与第二特征值相同的特征值,则将第二字符组确定为关键词组,基于字符数量在第一存储空间内确定相应的第二存储空间,进一步缩小了词组的查询范围,提高词组的查询效率,减少了计算资源的消耗。
图7是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备700可以是:智能手机、平板电脑、笔记本电脑或台式电脑。计算机设备700还可能被称为用户设备、便携式计算机设备、膝上型计算机设备、台式计算机设备等其他名称。
通常,计算机设备700包括有:一个或多个处理器701和一个或多个存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的词组查询方法。
在一些实施例中,计算机设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头706、音频电路707和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置计算机设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在计算机设备700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在计算机设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头706用于采集图像或视频。可选地,摄像头706包括前置摄像头和后置摄像头。通常,前置摄像头设置在计算机设备的前面板,后置摄像头设置在计算机设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,计算机设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以计算机设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测计算机设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对计算机设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在计算机设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在计算机设备700的侧边框时,可以检测用户对计算机设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在计算机设备700的前面板。接近传感器716用于采集用户与计算机设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与计算机设备700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括程序代码的存储器,上述程序代码可由处理器执行以完成上述实施例中的词组查询方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来程序代码相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (22)

1.一种词组查询方法,其特征在于,所述方法包括:
将待查询的目标文本中的第一字符组映射为第一特征值;
基于所述第一特征值,确定所述第一字符组对应的第一存储空间的标识,其中,所述第一存储空间内存储有多个关键词组的特征值;
将所述目标文本的第二字符组映射为第二特征值,其中,所述第二字符组包括所述第一字符组;
基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值,若在所述第一存储空间查询到与所述第二特征值相同的特征值,确定与所述第二特征值对应的权重,其中,所述权重用于表示所述关键词组查询时的优先级;若所述权重符合目标条件,将所述第二字符组确定为所述目标文本的关键词组。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值包括:
基于所述第一存储空间的标识,确定所述第一存储空间对应的存储位置,其中,所述第一存储空间内包括多个第二存储空间,不同第二存储空间对应于不同的字符数量;
在所述第一存储空间中确定与所述第二字符组的字符数量对应的第二存储空间;
在与所述第二字符组的字符数量对应的第二存储空间内查询与所述第二特征值相同的特征值。
3.根据权利要求2所述的方法,其特征在于,所述在与所述第二字符组的字符数量对应的第二存储空间内查询与所述第二特征值相同的特征值,包括:
若所述第二存储空间内存储的特征值为从小到大的顺序排列,则确定所述第二存储空间内存储的特征值的序号;
对所述第二存储空间内存储的特征值的最大序号和最小序号的平均值进行取整,得到目标序号;
若所述第二特征值与所述目标序号对应的特征值不同,则基于所述第二特征值和所述目标序号对应的特征值的数值大小关系,确定在所述第二存储空间内查询所述第二特征值的范围;
在所述范围内查询所述第二特征值。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值,确定所述第一字符组对应的第一存储空间的标识包括:
对所述第一特征值进行取模运算,得到所述第一特征值的余数,将所述余数确定为所述第一字符组对应的第一存储空间的标识。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用与映射为所述第二特征值不同的映射方法,将所述第二字符组映射为第三特征值;
基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值和第三特征值,若在所述第一存储空间查询到与所述第二特征值和第三特征值分别相同的两个特征值,且所述两个特征值指向同一个关键词组,将所述第二字符组确定为所述目标文本的关键词组。
6.根据权利要求1所述的方法,其特征在于,所述多个关键词组的特征值在所述第一存储空间内的存储方法包括:
将所述关键词组中的第一目标字符组映射为第一目标特征值;
对所述第一目标特征值进行取模运算,得到所述第一目标特征值的余数,将所述余数相同的关键词组存储在所述第一存储空间内,其中,所述第一存储空间内包括多个第二存储空间;
在所述第一存储空间中,将字符数量相同的关键词组存储在同一个第二存储空间内。
7.根据权利要求6所述的方法,其特征在于,所述将字符数量相同的关键词组存储在同一个第二存储空间内包括:
将所述字符数量相同的关键词组映射为第二目标特征值,将所述第二目标特征值存储在所述同一个第二存储空间内。
8.根据权利要求7所述的方法,其特征在于,所述将字符数量相同的关键词组存储在同一个第二存储空间内包括:
采用与映射为所述第二目标特征值不同的映射方法,将所述字符数量相同的关键词组映射为第三目标特征值;
将所述第二目标特征值和第三目标特征值绑定存储在所述同一个第二存储空间内。
9.根据权利要求7所述的方法,其特征在于,所述将所述第二目标特征值存储在所述同一个第二存储空间内包括:
将所述第二特征值按照从小到大的顺序排列,将排列后的第二目标特征值存储在所述同一个第二存储空间内。
10.根据权利要求6所述的方法,其特征在于,所述方法还包括:
为所述关键词组设置权重,将所述权重与所述关键词组绑定存储在所述同一个第二存储空间内。
11.一种词组查询装置,其特征在于,所述装置包括:
映射模块,用于将待查询的目标文本中的第一字符组映射为第一特征值;
标识确定模块,用于基于所述第一特征值,确定所述第一字符组对应的第一存储空间的标识,其中,所述第一存储空间内存储有多个关键词组的特征值;
所述映射模块,还用于将所述目标文本的第二字符组映射为第二特征值,其中,所述第二字符组包括所述第一字符组;
查询模块,用于基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值,若在所述第一存储空间查询到与所述第二特征值相同的特征值,确定与所述第二特征值对应的权重,其中,所述权重用于表示所述关键词组查询时的优先级;若所述权重符合目标条件,将所述第二字符组确定为所述目标文本的关键词组。
12.根据权利要求11所述的装置,其特征在于,所述查询模块,用于基于所述第一存储空间的标识,确定所述第一存储空间对应的存储位置,其中,所述第一存储空间内包括多个第二存储空间,不同第二存储空间对应于不同的字符数量;在所述第一存储空间中确定与所述第二字符组的字符数量对应的第二存储空间;在与所述第二字符组的字符数量对应的第二存储空间内查询与所述第二特征值相同的特征值。
13.根据权利要求12所述的装置,其特征在于,所述查询模块,还用于若所述第二存储空间内存储的特征值为从小到大的顺序排列,则确定所述第二存储空间内存储的特征值的序号;对所述第二存储空间内存储的特征值的最大序号和最小序号的平均值进行取整,得到目标序号;若所述第二特征值与所述目标序号对应的特征值不同,则基于所述第二特征值和所述目标序号对应的特征值的数值大小关系,确定在所述第二存储空间内查询所述第二特征值的范围;在所述范围内查询所述第二特征值。
14.根据权利要求11所述的装置,其特征在于,所述标识确定模块,用于对所述第一特征值进行取模运算,得到所述第一特征值的余数,将所述余数确定为所述第一字符组对应的第一存储空间的标识。
15.根据权利要求11所述的装置,其特征在于,所述查询模块,用于采用与映射为所述第二特征值不同的映射方法,将所述第二字符组映射为第三特征值;基于所述第一存储空间的标识在所述第一存储空间内查询所述第二特征值和第三特征值,若在所述第一存储空间查询到与所述第二特征值和第三特征值分别相同的两个特征值,且所述两个特征值指向同一个关键词组,将所述第二字符组确定为所述目标文本的关键词组。
16.根据权利要求11所述的装置,其特征在于,所述映射模块,还用于将所述关键词组中的第一目标字符组映射为第一目标特征值;
所述装置还包括:
运算模块,用于对所述第一目标特征值进行取模运算,得到所述第一目标特征值的余数,将所述余数相同的关键词组存储在所述第一存储空间内,其中,所述第一存储空间内包括多个第二存储空间;
存储模块,用于在所述第一存储空间中,将字符数量相同的关键词组存储在同一个第二存储空间内。
17.根据权利要求16所述的装置,其特征在于,所述存储模块,用于将所述字符数量相同的关键词组映射为第二目标特征值,将所述第二目标特征值存储在所述同一个第二存储空间内。
18.根据权利要求17所述的装置,其特征在于,所述存储模块,还用于采用与映射为所述第二目标特征值不同的映射方法,将所述字符数量相同的关键词组映射为第三目标特征值;将所述第二目标特征值和第三目标特征值绑定存储在所述同一个第二存储空间内。
19.根据权利要求17所述的装置,其特征在于,所述存储模块还用于将所述第二特征值按照从小到大的顺序排列,将排列后的第二目标特征值存储在所述同一个第二存储空间内。
20.根据权利要求16所述的装置,其特征在于,所述装置还包括:
权重设置模块,用于为所述关键词组设置权重,将所述权重与所述关键词组绑定存储在所述同一个第二存储空间内。
21.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的词组查询方法所执行的操作。
22.一种存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的词组查询方法所执行的操作。
CN202010148769.3A 2020-03-05 2020-03-05 词组查询方法、装置、计算机设备以及存储介质 Active CN111368057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010148769.3A CN111368057B (zh) 2020-03-05 2020-03-05 词组查询方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010148769.3A CN111368057B (zh) 2020-03-05 2020-03-05 词组查询方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111368057A CN111368057A (zh) 2020-07-03
CN111368057B true CN111368057B (zh) 2023-08-22

Family

ID=71206693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010148769.3A Active CN111368057B (zh) 2020-03-05 2020-03-05 词组查询方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111368057B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101036143A (zh) * 2004-08-13 2007-09-12 谷歌股份有限公司 用于记号空间资料库的多级查询处理系统与方法
CN101398830A (zh) * 2007-09-27 2009-04-01 阿里巴巴集团控股有限公司 词库模糊查询方法及词库模糊查询系统
CN102084363A (zh) * 2008-07-03 2011-06-01 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN108763441A (zh) * 2018-05-25 2018-11-06 腾讯音乐娱乐科技(深圳)有限公司 生成歌词、显示歌词的方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101036143A (zh) * 2004-08-13 2007-09-12 谷歌股份有限公司 用于记号空间资料库的多级查询处理系统与方法
CN101398830A (zh) * 2007-09-27 2009-04-01 阿里巴巴集团控股有限公司 词库模糊查询方法及词库模糊查询系统
CN102084363A (zh) * 2008-07-03 2011-06-01 加利福尼亚大学董事会 一种用于在结构化数据上高效地支持交互式模糊搜索的方法
CN108763441A (zh) * 2018-05-25 2018-11-06 腾讯音乐娱乐科技(深圳)有限公司 生成歌词、显示歌词的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111368057A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN110852100B (zh) 关键词提取方法、装置、电子设备及介质
CN109918669B (zh) 实体确定方法、装置及存储介质
CN112269853A (zh) 检索处理方法、装置及存储介质
CN108831423B (zh) 提取音频数据中主旋律音轨的方法、装置、终端及存储介质
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN110414232B (zh) 恶意程序预警方法、装置、计算机设备及存储介质
CN111324699A (zh) 语义匹配的方法、装置、电子设备及存储介质
CN109917988B (zh) 选中内容显示方法、装置、终端及计算机可读存储介质
CN109902089B (zh) 利用异构索引的查询方法、装置、电子设备及介质
CN111475611B (zh) 词典管理方法、装置、计算机设备及存储介质
CN110149408B (zh) 业务数据显示方法、装置、终端及服务器
CN111125095B (zh) 数据前缀添加的方法、装置、电子设备及介质
CN111368057B (zh) 词组查询方法、装置、计算机设备以及存储介质
CN114817796A (zh) 信息内容的评论方法、装置、设备及可读存储介质
CN114253976B (zh) 基于位图评分的搜索方法和装置
CN111597823A (zh) 中心词提取方法、装置、设备及存储介质
CN115878889B (zh) 路书推荐方法、装置、设备及计算机可读存储介质
CN115391524B (zh) 敏感词检测方法、装置、计算机设备、存储介质及产品
CN111782767A (zh) 问答方法、装置、设备及存储介质
CN108710612A (zh) 语义标注的方法、装置、计算机设备、可读存储介质
CN118193686A (zh) 答复信息的显示方法、装置、设备及存储介质
CN117454954A (zh) 模型训练方法、装置、计算机设备及存储介质
CN109918566B (zh) 查询方法、装置、电子设备及介质
CN114741602A (zh) 对象推荐方法、目标模型的训练方法、装置及设备
HK40025864A (zh) 词组查询方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025864

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant