CN110399505A

CN110399505A - 语义标签生成方法及设备、计算机存储介质

Info

Publication number: CN110399505A
Application number: CN201810344523.6A
Authority: CN
Inventors: 胡磊; 张旭
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2019-11-01
Anticipated expiration: 2038-04-17
Also published as: CN110399505B

Abstract

本申请实施例提供了一种语义标签生成方法及设备、计算机存储介质，本申请中，为媒体预先设置有描述维度和描述维度的组合要求，之后利用组合要求，将描述维度对应的描述维值进行组合连接，能够生成含义清晰、语义完整的语义标签，克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。进一步地，利用生成的多个语义标签能够有效地支持媒体的推荐、搜索等应用。

Description

语义标签生成方法及设备、计算机存储介质

技术领域

本申请实施例涉及计算机及文本处理技术领域，并且更具体地，涉及一种语义标签生成方法及设备、计算机存储介质。

背景技术

为了满足用户对视频、音频、网页等媒体信息的搜索定位需求，在对媒体进行管理时，通常会为每个媒体设置至少一个能够反映媒体内容或用户使用感受的标签。由于不同的标签可以从不同的维度对媒体进行描述，因此使用者可以通过标签实现对资源信息细粒度、多维度的搜索定位。例如，视频运营网站为了满足用户对视频搜索定位的需求，通常会为视频设置视频标签，从而使用户可以利用视频标签快速的搜索到需要的视频。

媒体的标签通常可以直接从媒体的关联文本中提取，所述关联文本包括但不限于对应媒体资源的元数据、简介、评论或字幕等。例如可以采用自然语言处理(NaturalLanguage Processing，NLP)的技术，按照预设的提取规则从媒体的关联文本中提取媒体相对应的标签。

由于关联文本的种类多样，因此按照预设的提取规则从关联文本中提取的标签可能存在噪音，所以在提取出标签之后，还需要进行多个过滤环节，滤除标签中的噪音，才能得到最终的标签。在实际使用中，预设的提取规则通常会比较有限，因此按照预设的提取规则从关联文本中提取出的标签数量本身就比较有限，再经过过滤后会进一步减少标签的数量，导致最终得到的标签数量十分有限。

发明内容

本申请实施例提供一种语义标签生成方法及设备、计算机存储介质，其利用媒体的标签提取语法规则和描述维度，结合媒体的相关信息，能够形成多个语义标签，克服了利用现有技术形成的语义标签数量少的缺陷。

第一方面，提供了一种语义标签生成方法，该方法用于生成媒体的语义标签，具体包括：

获取媒体的相关信息、所述媒体的描述维度的组合要求，所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式；这里的相关信息是指从媒体上直接得到的文本信息或从媒体的相关网站上获取到的关于媒体内容、媒体评价等的关联文本信息。这里的媒体是指传播信息的媒介，例如可以是视频、音频、网页、音乐的等。这里的组合要求是为媒体预先设定的，不同的媒体可以设置有不同的组合要求，同一媒体可以设置有多个组合要求。这里的描述维度为描述媒体的一个预定角度，一个媒体预先设定了多个描述维度。

根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇。这里的描述维值是描述维度的具体取值，描述维值不限于是一个词汇，还可以是包括多个词汇的短语；这里的描述维值是一个预定的词汇或短语。

根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。这里的组合要求用于表示媒体的多个描述维度对应的描述维值的组合形式，根据组合要求中表示的描述维值的组合形式和各个描述维度对应的描述维值即可生成语义标签。由于组合要求包括多个描述维度对应的描述维值的组合形式，因此利用上述组合要求生成的语义标签能够从至少一个角度描述媒体。

本方面中，利用媒体的描述维度的组合要求，将描述维度对应的描述维值进行组合，能够生成含义清晰、语义完整的语义标签，克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。同时，利用不同的描述维度对应的描述维值进行组合能够形成含义丰富语义标签，继而利用生成的稠密、多样的语义标签能够有效地支持媒体的推荐、搜索等应用。

结合第一方面，在第一种可能的实现方式中，所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签，包括：

从所述组合要求中获取各个描述维度对应的描述维值的连接关系。

根据所述连接关系，将各个描述维度的描述维值进行连接，得到所述语义标签。

本方面中，组合要求表示了各个描述维度的连接关系，根据组合要求连接各个描述维度形成的语义标签含义清晰，并且语义完整。

结合第一方面，在第二种可能的实现方式中，根据所述组合要求和所述描述维度对应的描述维值生成语义标签，包括；

从所述组合要求中获取各个描述维度对应的描述维值的连接关系；

从所述组合要求中获取各个描述维度对应的描述维值在生成语义标签时被选取的最小概率；

根据各个所述描述维值在生成的语义标签中被选取的最小概率，选取若干个描述维值；

根据所述连接关系，将选取得到的描述维值进行连接，得到所述语义标签。。

本方面中，根据描述维值在生成语义标签时被选用的最小概率，可以利用一个组合要求成多个语义标签，克服了利用现有技术形成的语义标签数量少的缺陷，从而能够有效支持媒体的推荐、搜索等应用。

结合第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第三种可能的实现方式中，在得到所述语义标签之后，所述语义标签生成方法还包括：

统计每个所述语义标签包括的描述维值的个数；

删除描述维值的个数小于第一预定值的语义标签；其中，所述组合要求还包括所述第一预定值。

本方面能够有效控制语义标签中描述媒体的角度的数量。

结合第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第四种可能的实现方式中，在得到所述语义标签之后，所述语义标签生成方法还包括：

统计每个所述语义标签所包括的字符的个数；

删除字符个数大于第二预定值的语义标签；其中，所述组合要求包括所述第二预定值。本方面能够控制生成的语义标签的长度，以确保生成简洁、意义明确的语义标签。

结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式，在第五种可能的实现方式中，根据所述媒体的相关信息确定所述描述维度对应的描述维值，包括：

从所述媒体的相关信息中提取所述描述维度对应的描述词汇。这里的描述词汇为从所述描述维度描述所述媒体的词汇；应当说明的是这里的描述词汇可以不限于是一个词汇，还可以是包括多个词汇的短语；

确定所述描述词汇对应的标准词汇，所述标准词汇为预定的词汇；这里标准词汇与描述词汇的映射关系是预先设定的，根据该映射关系可以确定描述词汇对应的标准词汇。此步骤执行完毕后，得到的每一个标准词汇对应一个或多个描述词汇；这里的标准词汇可以不限于是一个词汇，还可以是包括多个词汇的短语；

确定每个所述标准词汇的权重。

选取权重最大的所述标准词汇，得到所述描述维值。这里，如果权重最大的标准词汇的数量大于1个，判断得到的多个标准词汇是否存在语义矛盾，如果不存在矛盾，则将得到多个标准词汇都作为描述维值，如果得到的多个标准词汇存在语义矛盾，则按照预定方式选取其中的一个标准作为描述维值。上述预定方式可以是随机选取的方式。

本方面中，将提取的描述词汇映射到标准词汇上，实现了对描述词汇的归一化处理，后续选用权重最大的标准词汇作为描述维值生成语义标签，能够有效避免同义语义标签的出现。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，语义标签生成方法还包括：

在得到的所述描述维度对应的所述描述维值大于1个的情况下，从每个描述维度对应的描述维值中提取任意一个描述维值，得到多个描述维值组，每个描述维值组均包括所有的描述维度对应的描述维值。

根据所述组合要求和每个所述描述维值组中的描述维值生成语义标签，即分别利用每个描述维值组中的描述维值，根据所述组合要求生成语义标签。

本方面中，在某一个或多个描述维度对应的描述维值为多个时，可以将其中一个描述维度的每个描述维值与其他描述维度的任意一个描述维值进行组合，得到多个描述维值组，继而可以利用任意一个描述维值组中的描述维值生成语义标签。在利用描述维值组生成语义标签时，可以利用上述任意一个方面或多个方面中的语义标签生成方法来生成语义标签。

本方面中，结合描述维度的多个描述维值可以得到多个标签维值组，继而利用多个标签维值组能够生成更多的语义标签，从而更加有效的克服了现有技术中生成的语义标签少的缺陷。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述方法还包括：

获取所述语义标签中的每个描述维值对应的标准词汇的权重，得到所述语义标签中的每个描述维值的权重；

计算所述语义标签中的所有的描述维值的权重的和，得到所述语义标签的权重；

根据所述语义标签的权重，按照从大到小的顺序将所述语义标签进行排序；

选取前N个语义标签，得到最终的语义标签，其中N为大于或等于1的整数。

本方面中，实现了利用语义签的权重筛选语义标签，能够得到权重较高的语义标签，增加了得到的语义标签的可靠性。

结合第一方面的第五种可能的实现方式，在第八种可能的实现方式中，确定所述标准词汇的权重，包括：

确定所述标准词汇对应的描述词汇的权重；这里一个标准词汇对应一个或多个描述词汇。

计算所述标准词汇对应的所有的描述词汇的权重的和，得到所述标准词汇的权重。

本方面将标准词汇的权重设置为其对应的所有的描述词汇的权重的和。

结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，确定所述描述词汇的权重，包括：

获取所述描述词汇所属的源字段的置信度；所述源字段为所述媒体的相关信息中的字段。这里媒体的相关信息中包括若干个源字段，描述词汇是从媒体的一个源字段中提取得到的。应当说明的是，每个源字段在对应于一个描述维度时预先设置有一个置信度，同一个源字段在对应于不同的描述维度时的置信度可以不同。因此，此步骤获取的是源字段在对应当前描述维度时的置信度。

获取所述描述词汇在所述源字段中出现的次数，得到所述描述词汇的词频；

根据所述置信度和所述词频计算所述描述词汇的权重。具体地，可以通过计算所述置信度和所述词频的乘积得到所述描述词汇的权重。

结合第一方面的第五种可能的实现方式，在第十种可能的实现方式中，从所述媒体的相关信息中提取所述描述维度对应的描述词汇，包括：

获取与所述描述维度对应的源字段的标识符；这里，预先为每个描述维度设置了若干个源字段；

根据所述源字段的标识符从所述媒体的相关信息中获取源字段；

从获取的所述源字段中提取所述描述维度对应的描述词汇。

结合第一方面的第十种可能的实现方式，在第十一种可能的实现方式中，所述从获取的所述源字段中提取所述描述维度对应的描述词汇包括：

获取与所述描述维度对应的源字段的置信度；

选取置信度大于预定值的源字段，并从选取得到的源字段中提取所述描述词汇。

本方面选取置信度大于预定值的源字段提取描述词汇，增加了生成的语义标签的准确度。

结合第一方面的第十一种可能的实现方式，在第十二种可能的实现方式中，所述方法还包括如下步骤：

为每个所述预描述维度设置至少一个所述源字段；

为每个描述维度对应的每个所述源字段设置所述置信度，同一个源字段在对应于不同的描述维度时的置信度可以不同。

结合第一方面的第十二种可能的实现方式，在第十三种可能的实现方式中，所述从选取得到的源字段中提取所述描述词汇包括：

获取与所述描述维度对应的描述词汇提取规则；这里的描述词汇提取规则是与描述维度对应的，在执行此步骤之前需要为每个描述维度设置至少一个描述词汇提取规则；

根据所述描述词汇提取规则从选取得到的源字段中提取所述描述词汇。

结合第一方面的第十三种可能的实现方式，在第十四种可能的实现方式中，所述方法还包括生成所述描述词汇提取规则的步骤：

获取与所述描述维度对应的第一描述词汇提取配置文件，所述第一描述词汇提取配置文件包括前缀词集合、前缀词附属词集合和第一核心词集合；所述第一核心词集合包括与所述描述维度对应的至少一个标准词汇；这里的第一描述词汇提取配置文件是预先设定的，并且是与描述维度对应的，不同的描述维度对应的第一描述词汇提取配置文件可以不同；应当说明的是，这里的第一核心词结合中不限于包括标准词汇，还可以包括与标准词汇的相似度大于某一预定的值的词汇；

将所述前缀词集合中的每个前缀词与所述前缀词附属词集合中每个前缀词附属词组合，并且所述前缀词位于所述前缀词附属词之前，得到若干个前缀规则；

将每个所述前缀规则与所述第一核心词集合中的每个核心词组合，并且所述前缀规则位于所述核心词之前，得到所述描述词汇提取规则。

结合第一方面的第十三种可能的实现方式，在第十五种可能的实现方式中，所述方法还包括生成所述描述词汇提取规则的步骤：

获取与所述描述维度对应的第二描述词汇提取配置文件，所述第二描述词汇提取配置文件包括后缀词集合、后缀词附属词集合和第二核心词集合；所述第二核心词集合包括与所述描述维度对应的至少一个标准词汇；这里的第二描述词汇提取配置文件是预先设定的，并且是与描述维度对应的，不同的描述维度对应的第二描述词汇提取配置文件可以不同；这里的第二核心词结合中不限于包括标准词汇，还可以包括与标准词汇的相似度大于某一预定的值的词汇；

将所述后缀词集合中的每个后缀词与所述后缀词附属词集合中每个后缀词附属词组合，并且所述后缀词位于所述后缀词附属词之前，得到若干个后缀规则；

将每个所述后缀规则与所述第二核心词集合中的每个核心词组合，并且所述核心词位于所述后缀规则之前，得到所述描述词汇提取规则。

以上第一方面的各实现方式中的语义标签生成方法说明的是如何利用一个组合要求生成语义标签，在利用多个组合要求生成语义标签时，可以通过多次执行第一方面或第一方面的任意一种实现方式的语义标签生成方法来生成语义标签。

第二方面，本申请还提供了一种语义标签生成装置，该装置包括用于执行第一方面及第一方面各实现方式中的方法步骤的模块和部件。

第三方面，本申请还提供了一种语义标签生成设备，所述语义标签生成设备包括第二方面所述的语义标签生成装置，其中，所述语义标签生成设备包括处理器和存储器，其中：

所述存储器，用于存储程序指令；

所述处理器，用于执行所述存储器中所存储的程序或指令，以使所述语义标签生成设备执行第一方面或第一方面的任意一种实现方式的语义标签生成方法来生成语义标签。

第四方面，本申请还提供了一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的语义标签生成方法各实施例中的部分或全部步骤。

第五方面，本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面或第一方面的任意实现方式的语义标签生成方法来生成语义标签。

在本申请实施例的上述技术方案中，为媒体预先设置有描述维度和描述维度的组合要求，之后利用组合要求，将描述维度对应的描述维值进行组合连接，能够生成含义清晰、语义完整的语义标签，克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。进一步地，利用生成的多个语义标签能够有效支持媒体的推荐、搜索等应用。

附图说明

为了更清楚的说明本申请实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1、2示意性的示出了现有技术中提取语义标签的流程图。

图3示意性的示出了视频服务系统的结构示意图。

图4示意性的示出了利用视频服务系统提取语义标签的流程图。

图5示意性的示出了本申请一实施例的语义标签生成方法的流程图。

图6示意性的示出了本申请再一实施例的语义标签生成方法的流程图。

图7示意性的示出了本申请又一实施例的语义标签生成方法的流程图。

图8示意性的示出了本申请又一实施例的语义标签生成方法中根据组合要求生成语义标签的流程图。

图9示意性的示出了本申请又一实施例的语义标签生成方法中确定描述维值的流程图。

图10示意性的示出了本申请又一实施例的语义标签生成方法中确定标准词汇的权重的流程图。

图11示意性的示出了本申请又一实施例的语义标签生成方法中确定描述词汇的权重的流程图。

图12示意性的示出了本申请又一实施例的语义标签生成方法中提取描述词汇的流程图。

图13示意性的示出了本申请又一实施例的语义标签生成方法中提取描述词汇的流程图。

图14示意性的示出了本申请又一实施例的语义标签生成方法中提取描述词汇的流程图。

图15示意性的示出了本申请又一实施例的语义标签生成方法中利用描述维值组生成语义标签的流程图。

图16示意性的示出了本申请又一实施例的语义标签生成方法中选取最终语义标签的流程图。

图17示意性的示出了本申请又一实施例的语义标签生成方法中根据组合要求生成语义标签的流程图。

图18示意性的示出了本申请一实施例的语义标签生成设备的框图。

图19示意性的示出了本申请又一实施例的语义标签生成方法的流程图。

图20示意性的示出了本申请又一实施例的语义标签生成方法的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本申请实施例的技术方案说明之前，首先以视频作为媒体，对现有技术中提取语义标签的技术方案进行说明。

现有技术中提取语义标签的技术方案，是按照预设的提取规则，从视频的关联文本中直接提取语义标签。上述关联文本主要指视频厂商或分销商等提供的用于描述视频内容的文本，如图1、2所示，关联文本具体可以包括视频厂商或分销商等提供的元数据、字幕以及评论(长评、短评均可)等。其中，视频的元数据是指从主流实体网站上获取的描述视频的结构化或半结构化的数据，例如导演、演员、地区、日期以及流派等。上述语义标签是指能完整表达视频的客观事实及用户观影感受的短语或句法，比如：女主角强势的电影、二战时期军事题材的悲剧电影、尼古拉斯凯奇主演的动作大片、适合18岁以上观看的暴力惊悚电影等。

如图2所示，从视频的关联文本中提取语义标签的方法，具体包括以下步骤：

步骤1：从视频的关联文本中提取最初的语义标签；

其中，此步骤可以具体包括如下子步骤：

子步骤1.1：对关联文本进行分词处理，得到若干个短语，对每个短语进行词性标注；上述短语包括至少一个词汇；

子步骤1.2：利用词性配置表对子步骤1.1得到短语进行过滤，得到词性符合预定要求的若干个短语，这些短语组成第一预备标签集；这里的词性配置表用于存储满足预定要求的词性；

子步骤1.3：对关联文本进行句法分析，提取关联文本的句法标注树；

子步骤1.4：利用句法配置表，提取句法标注树中符合预定要求的句法，得到第二预备标签集，这里的句法至少包括一个词汇，这里的句法配置表用于存储满足预定要求的句法；

子步骤1.5：计算第一预备标签集和第二预备标签集的交集，得到的短语或句法即为上述最初的语义标签。

步骤2：利用噪音模式配置表滤除上述最初的语义标签中的噪音，得到候选的语义标签；这里的噪音模式配置表用于存储噪音的特征，根据噪音的特征可以滤除上述最初的语义标签中的噪音。

步骤3：利用上述候选的语义标签生成最终的语义标签。

其中，此步骤可以具体包括如下子步骤：

子步骤3.1：利用区分度配置表中词频(Term Frequency，TF)和逆向文件频率(Inverse Document Frequency，IDF)的计算公式以及计算相关的要素，计算每个候选的语义标签的词频TF和逆向文件频率IDF；

子步骤3.2：计算每个候选的语义标签的TF和IDF的乘积，得到每个候选的语义标签的区分度；

子步骤3.3：利用区分度配置表中存储的过滤阀值，选取区分度大于过滤阀值的候选的语义标签，得到最终的语义标签。

上述方法利用句法配置表和词性配置表直接从关联文本中提取语义标签，由于句法配置表和词性配置中的规则有限，因此提取得到的最初的语义标签数量较少，并且在得到最初的语义标签之后，存在很多的过滤环节，导致最终的语义标签的数量进一步减少。另外，利用上述方法得到语义标签存在语义重复的缺陷，不仅浪费了计算资源，并且降低了用户的体验度。

针对现有技术中提取语义标签存在的上述缺陷，本申请实施例提供了语义标签生成方法和设备，能够解决上述缺陷中的至少一个缺陷。本申请实施例的语义标签生成方法或语义标签生成设备应用于媒体服务系统中。下面以视频作为媒体为例，对应用语义标签生成方法和语义标签生成设备的媒体服务系统，即视频服务系统的结构进行说明。

如图3所示，视频服务系统包括视频内容管理系统(Content Management System，CMS)、视频用户管理系统(User Management System，UMS)、行为分析挖掘系统(BehaviorAnalysis and Mini System，BAMS)、标签分析挖掘系统(Tag Analysis and MiningSystem，TAMS)、用户分析挖掘系统(User Analysis and Mining System，UAMS)、视频服务提供平台(Video Service Platform，VSP)、视频推荐服务系统(Video RecommendationService，VRS)以及视频搜索服务系统(Video Search Service。VSS)。视频内容管理系统CMS与行为分析挖掘系统BAMS、标签分析挖掘系统TAMS以及用户分析挖掘系统UAMS连接；视频用户管理系统UMS与行为分析挖掘系统BAMS、标签分析挖掘系统TAMS以及用户分析挖掘系统UAMS连接。行为分析挖掘系统BAMS、标签分析挖掘系统TAMS以及用户分析挖掘系统UAMS均连接至视频服务提供平台VSP；视频服务提供平台VSP与视频推荐服务系统VRS以及视频搜索服务系统VSS连接。

如图3所示，视频内容管理系统CMS将视频的关联文本导入标签分析挖掘系统TAMS，标签分析挖掘系统TAMS用于执行本申请实施例的语义标签生成方法，生成语义标签，并将生成的语义标签发送给视频服务提供平台VSP。视频服务提供平台VSP利用接收的语义标签，通过视频推荐服务系统VRS为用户推荐用户喜欢的视频，视频服务提供平台VSP利用接收的语义标签，通过视频搜索服务系统VSS为用户提供视频搜索服务。

具体地，如图4所示，标签分析挖掘系统TAMS包括标签生成模块和数据导出模块，标签生成模块利用视频内容管理系统CMS导入的关联文本自动生成语义标签，并将生成的语义标签传递给数据导出模块，数据导出模块按照外部所需格式将语义标签导出给视频服务提供平台VSP。例如以“实体-语义标签矩阵”或“语义标签-实体矩阵”的形式输出语义标签。其中，实体-语义标签矩阵中，矩阵的“行”为视频实体的名称，矩阵的“列”为语义标签，行和列交汇处的单元格中存储0或1，1表示对应的视频实体包括当前单元格所在的列对应的语义标签，0表示对应的视频实体不包括当前单元格所在的列对应的语义标签。语义标签-实体矩阵是上述实体-语义标签矩阵的转置。

视频服务提供平台VSP包括推荐生成模块和数据索引模块，推荐生成模块接收语义标签，通过计算实体元数据间或实体语义标签间的相似度，生成“实体-实体”推荐列表，为用户推荐用户喜欢的视频。这里的实体-实体”推荐列表类似哈希hash表，其key为视频实体的名称，其value为与其在实体元数据或实体语义标签内容上相似的多个视频实体的名称构成的列表。

数据索引模块接收语义标签，利用实体元数据及实体语义标签，构建索引词-实体倒排表，索引词源于实体元数据或实体语义标签，为用户提供视频搜索服务。索引词-实体倒排表类似hash表，其key为由实体元数据或实体语义标签组成的索引词，value为包含这些实体元数据或实体语义标签的实体的名称。

另外，视频服务提供平台VSP还包括用户画像模块，利用用户对观看、收藏或评价的视频的实体元数据及实体语义标签，通过关联用户观影、收藏、评价等行为，建立用户对实体多个维度的偏好度。这里的实体元数据，主要指主流实体网站上描述实体的结构化或半结构化数据，比如导演、演员、上映日期、地区、流派等等。

以上实体是指视频，但在不限于是视频，例如还可以是音频、小说、音乐等。

视频服务系统的标签分析挖掘系统提供标签提取能力，其通过分析从CMS导出的视频元数据以及评论、字幕等关联文本，自动提取出语义标签，并提供给VSP，进而支撑视频的推荐、搜索等业务。

下面通过几个实施例对本申请的语义标签生成方法以及语义标签生成设备进行说明。

在一个实施例中，提供了一种语义标签生成方法，该方法用于为视频、音频等媒体生成语义标签。如图7所示，本实施例的语义标签生成方法包括：

步骤110：获取媒体的相关信息、所述媒体的描述维度的组合要求，所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式。

所述媒体的相关信息是指从媒体上直接得到的文本信息或从媒体的相关网站上获取到的关联文本。上述关联文本包括视频厂商或分销商等提供的元数据、字幕以及评论等文本信息。这里的媒体是指传播信息的媒介，例如可以是视频、音频、网页、音乐的等。

所述描述维度的组合要求是为媒体预先设定的，不同的媒体可以设置有不同的组合要求，同一媒体可以设置有多个组合要求，并且可根据实际需求进行增减、合并或调整。另外，还可以为每个描述维度设置至少一个组合要求。

所述描述维度为描述媒体的预定角度，这里的描述维度用于刻画媒体的客观事实及用户对媒体的使用感受或消费需求。。例如，描述维度可以是故事的来源、发生地、年代、人物、事件、结局、影片的主演、导演、剧情、音效、特效、取景地、获奖、主角的颜值、性格或演技等，这些描述维度侧重刻画用户对媒体的使用感受或消费需求。

在此步骤执行之前预先为媒体设置了多个描述维度。

步骤120：根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇。

所述描述维值是描述维度的具体取值，描述维值不限于是一个词汇，还可以是包括多个词汇的短语；这里的描述维值是一个预定的词汇或短语。

步骤130：根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。

所述组合要求用于表示媒体的多个描述维度对应的描述维值的组合形式，根据组合要求中表示的描述维值的组合形式和各个描述维度对应的描述维值即可生成语义标签。由于组合要求包括多个描述维度对应的描述维值的组合形式，因此利用上述组合要求生成的语义标签能够从至少一个角度描述媒体。

本实施例中，可以将描述维度和描述维度的组合要求利用一条标签提取语法规则存储，之后可以将标签提取语法规则存储在一个表格中，在执行此步骤时，从表格中获取标签提取语法规则即可。不同的媒体的标签提取语法规则可以存储在一张表格中，此时需要建立媒体与其标签提取语法规则的映射关系。在执行此步骤时根据该映射关系即可获取某一媒体对应的表现提取语法规则。

本实施例利用媒体的描述维度的组合要求，将描述维度对应的描述维值进行组合，能够生成含义清晰、语义完整的语义标签，克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。同时，利用不同的描述维度对应的描述维值进行组合能够形成含义丰富的语义标签，继而利用生成的稠密、多样的语义标签能够有效地支持媒体的推荐、搜索等应用。

基于以上实施例，如图8所示，在另一个实施例中，步骤130中生成语义标签具体可以包括如下子步骤：

子步骤210：从所述组合要求中获取各个描述维度对应的描述维值的连接关系；

所述组合要求中包括各个描述维值的连接关系，所述连接关系用于表示各个描述维值之间的位置关系以及连接形式。上述连接形式表示的是相邻两个描述维值之间的连接形式，例如相邻两个描述维值可以通过空格连接，或者相邻两个描述维值可以直接连接，或者相邻两个描述维值可以特定符号连接，本实施例对相邻两个描述维值的连接形式不做具体限定。例如.有三个描述维值“网络”“小说”“爱情”，那么连接关系表示的描述维值的位置关系是：“网络”位于“爱情”之前，“爱情”位于“小说”之前，连接关系表示的描述维值的连接形式是：三个描述维值直接按照位置关系放置，相邻两个描述维值之间直接连接，那么根据该组合要求生成的语义标签就是“网络爱情小说”。

子步骤220：根据所述连接关系，将各个描述维度的描述维值进行连接，得到所述语义标签。本实施例利用组合要求，将描述维度对应的描述维值进行组合连接，能够生成含义清晰、语义完整的语义标签，克服了现有技术中直接从媒体的相关信息中提取语义标签所造成的标签数量少的缺陷。

基于以上实施例，如图17所示，在另一个实施例中，步骤130中生成语义标签具体可以包括如下子步骤：

子步骤1010：从所述组合要求中获取各个描述维度对应的描述维值的连接关系；

子步骤1020：从所述组合要求中获取各个描述维度对应的描述维值在生成语义标签时被选取的最小概率；

所述组合要求包括各个描述维度对应的描述维值在生成语义标签时被选取的最小概率；

子步骤1030：根据各个所述描述维值在生成的语义标签中被选取的最小概率，选取若干个描述维值；

子步骤1040：根据所述连接关系，将选取得到的描述维值进行连接，得到所述语义标签。

在实现时，根据描述维值对应的最小概率，选取至少一个描述维值组合形成语义标签。例如，可以以描述维值对应的最小概率为目标，利用迭代的方法生成语义标签，具体地，选取标签提取语法规则中的一个描述维度对应的描述维值生成一个候选语义标签，之后根据组合要求，将另一个描述维度对应的描述维值与该候选语义标签的描述维值连接，形成新的候选语义标签，之后根据组合要求，将另外一个描述维度对应的描述维值与新的候选语义标签中的一个描述维值连接，形成新的候选语义标签，以此类推能够形成多个候选语义标签。最后根据描述维值在语义标签中出现的最小概率筛选候选语义标签，得到符合组合要求的语义标签。

本实施例根据描述维值在生成语义标签时被选用的最小概率，可以利用一个组合要求生成多个语义标签，克服了利用现有技术形成的语义标签数量少的缺陷，从而能够有效支持媒体的推荐、搜索等应用。

基于以上实施例，在另一个实施例中，如图19所示，语义标签生成方法还可以包括如下步骤：

步骤1310：统计每个所述语义标签包括的描述维值的个数；

步骤1320：删除描述维值的个数小于第一预定值的语义标签；其中，所述组合要求还包括所述第一预定值。

以上步骤够有效控制语义标签中描述媒体的角度的数量。

进一步地，如图20所示，语义标签生成方法还可以包括如下步骤：

步骤1410：统计每个所述语义标签所包括的字符的个数；

步骤1420：删除字符个数大于第二预定值的语义标签；其中，所述语法规则包括所述第二预定值。

以上步骤能够控制生成的语义标签的长度，以确保生成简洁、意义明确的语义标签。

在一个实施例中，标签提取语法规则的组合要求中还可以包括第一预定数值和/或第二预定数值，第一预定数值用于表示语义标签中描述维值出现的最少个数，第二数值用于表示语义标签中字符的最多个数。如表1所示，minc表示第一预数值，maxl表示第二预定数值。以表1中的第一个标签提取语法规则grammmr1为例，minc：3表示第一个语法规则中的三个描述维度script、subject、rulegenemovie均应该在生成的语义标签中出现。maxl：100表示生成的语义标签的字符数最多为100个。另外，表1中的百分数用于表示描述维度对应的描述维值在生成语义标签时被选取的最小概率，例如，“100％”表示在生成语义标签时，描述维度对应的描述维值被选取的概率是百分之百。

表1标签提取语法规则配置表

#规则1：
	#网络小说改编的爱情短片
script＝由#originalsource改编的
	grammar1＝100％#script 100％#subject 100％#rulegenemovie,minc:3,maxl:100

	#规则2：
#网络小说改编的关于人性的短片
	relatesubjects＝关于#relatesubject的
grammar2＝100％#script 100％#relatesubjects 100％#rulegenemovie,minc:3,maxl:100

#规则3：
	#网络小说改编的短片
grammar3＝100％#script 100％#rulegenemovie,minc:2,maxl:100

#规则4：
	#网络小说改编的美国商业片
grammar4＝100％#script 100％rulecountry 100％#rulegenre,minc:3,maxl:100

基于以上实施例，应当说明的是，语义标签中除了包括描述维值之外，还可以包括描述维值的修饰词。例如得到了三个描述维值：“网络小说”、“爱情”、“短片”，那么利用这三个描述维值在生成种子标签或语义标签的时候，需要为描述维值“网络小说”添加修饰词“由”，“改编的”，那么描述维值“网络小说”变为“由网络小说改编的”，之后利用新的描述维值和原来剩下的两个描述维值形成的种子标签即为“由网络小说改编的爱情短片”。

上述在描述维值加上修饰词形成一个新的描述维值，继而利用新的描述维值生成语义标签的方法，可以通过对标签提取语法规则进行改进来实现。具体地，可以将标签提取语法规则中的描述维度加上修饰词，得到的新的描述维度：修饰词+原描述维度+修饰词，利用新的描述维度形成标签提取语法规则。在具体生成语义标签的时候，只需要按照上述实施例的方法确定描述维值，之后根据新的描述维度生成新的描述维值，最后利用新的描述维值生成语义标签即可。如表1所示，记载了4条语法规则grammar1、grammar2、grammar3以及grammar4，图中的originalsource、relatesubject为原描述维度，script、relatesubjects为加上修饰词后形成的新的描述维度。表1中，subject、rulegenemovie、rulecountry、rulegenre为没有添加修饰词的描述维度。如表1所示，利用添加修饰词的新的描述维度和没有添加修饰词的描述维度共同形成生成语义标签的标签提取语法规则。

基于以上实施例，如图9所示，在另一个实施例中，步骤210中的根据所述媒体的相关信息确定所述描述维度对应的描述维值具体可以包括如下子步骤：

子步骤310：从所述媒体的相关信息中提取所述描述维度对应的描述词汇。

所述描述词汇为从所述描述维度描述所述媒体的词汇；应当说明的是这里的描述词汇可以不限于是一个词汇，还可以是包括多个词汇的短语。

子步骤320：确定所述描述词汇对应的标准词汇，所述标准词汇为预定的词汇。

所述标准词汇是描述词汇的标准值，标准词汇与描述词汇的映射关系是预先设定的，根据该映射关系可以确定描述词汇对应的标准词汇。此步骤执行完毕后，得到的每一个标准词汇对应一个或多个描述词汇。

所述标准词汇可以不限于是一个词汇，还可以是包括多个词汇的短语。

子步骤330：确定每个所述标准词汇的权重。

子步骤340：选取权重最大的所述标准词汇，得到所述描述维值。

这里，如果权重最大的标准词汇的数量大于1个，判断得到的多个标准词汇是否存在语义矛盾，如果不存在矛盾，则将得到多个标准词汇都作为描述维值，如果得到的多个标准词汇存在语义矛盾，则按照预定方式选取其中的一个标准作为描述维值。上述预定方式可以是随机选取的方式。

本实施例中，如表2所示，描述词汇与标准词汇的映射关系可以预先存储在一个表格中，标准词汇是描述词汇的标准值，一个以上的描述词汇对应一个标准词汇。表2中，表格的每一行由两列组成，SOH之前的是第一列，SOH之后的是第二列。第一列用于存储标准词汇，第二列用于存储与同行的第一列的标准词汇对应的描述词汇，第二列中两个相邻的描述词汇利用STX分割。将获取到的描述词汇替换为标准词汇，后续利用标准词汇确定描述维值，实现了对描述词汇的归一化处理，那么利用描述维值形成的语义标签不会存在同义的缺陷。上述映射表中标准词汇与描述词汇的映射关系的建立，可以利用Word2Vector(词向量生成算法工具)计算相似度，之后选取相似度高的词汇形成上述映射关系。

表2标准词汇映射表

本实施例将提取的描述词汇映射到标准词汇上，实现了对描述词汇的归一化处理，后续选用权重最大的标准词汇作为描述维值生成语义标签，能够有效避免同义语义标签的出现。

基于以上实施例，如图15所示，在另一个实施例中，步骤340中，在得到的所述描述维度对应的描述维值大于1个的情况下，语义标签生成方法还包括如下步骤：

步骤1110：从每个描述维度对应的描述维值中提取任意一个描述维值，得到多个描述维值组，每个描述维值组均包括所有的描述维度对应的描述维值；

步骤1120：根据所述组合要求和每个所述描述维值组中的描述维值生成语义标签。

本实施例中，在某一个或多个描述维度对应的描述维值为多个时，可以将其中一个描述维度的每个描述维值与其他描述维度的任意一个描述维值进行组合，得到多个描述维值组，继而可以利用任意一个描述维值组中的描述维值生成语义标签。这里可以利用上述任意一个方面或多个方面中的语义标签生成方法，结合描述维值组中的描述维值生成语义标签。

本实施例结合描述维度的多个描述维值可以得到多个标签维值组，继而利用多个标签维值组能够生成更多的语义标签，从而更加有效的克服了现有技术中生成的语义标签少的缺陷。

基于以上实施例，如图16所示，在另一个实施例中，在得到的多个语义标签后，语义标签生成方法还包括如下步骤：

步骤1210：获取所述语义标签中的每个描述维值对应的标准词汇的权重，得到所述语义标签中的每个描述维值的权重；

步骤1220：计算所述语义标签中的所有的描述维值的权重的和，得到所述语义标签的权重；

步骤1230：根据所述语义标签的权重，按照从大到小的顺序将所述语义标签进行排序；

步骤1240：选取前N个语义标签，得到最终的语义标签，其中N为大于或等于1的整数。这里的额N的取值可以根据实际的应用场景灵活设定。

本实施例实现了利用语义签的权重筛选语义标签，能够得到权重较高的语义标签，增加了得到的语义标签的可靠性。

基于以上实施例，如图10所示，在另一个实施例中，步骤330中的确定所述标准词汇的权重可以包括如下子步骤：

子步骤410：确定所述标准词汇对应的描述词汇的权重。

这里，一个标准词汇对应一个或多个描述词汇。

子步骤420：计算所述标准词汇对应的所有的描述词汇的权重的和，得到所述标准词汇的权重。

本实施例将标准词汇的权重设置为其对应的所有的描述词汇的权重的和。

基于以上实施例，如图11所示，在另一个实施例中，步骤410中确定所述描述词汇的权重可以包括如下子步骤：

子步骤510：获取所述描述词汇所属的源字段的置信度；所述源字段为所述媒体的相关信息中的字段。

所述媒体的相关信息中包括若干个源字段，这里的描述词汇是从媒体的一个源字段中提取得到的。

在此步骤执行之前，需要为每个描述维度对应的每个所述源字段设置所述置信度，同一个源字段在对应于不同的描述维度时可能不同，因此，此步骤获取的是源字段在对应当前描述维度时的置信度。

子步骤520：获取所述描述词汇在所述源字段中出现的次数，得到所述描述词汇的词频。

所述标准词汇对应的所有的描述词汇的词频的和，为标准词汇的词频。

子步骤530：根据所述置信度和所述词频计算所述描述词汇的权重。

这里，具体地可以通过计算所述置信度和所述词频的乘积得到所述描述词汇的权重。

本实施例通过获取与所述描述词汇对应的源字段的置信度以及描述词汇的词频，计算得到描述词汇的权重，继而利用描述词汇的权重可以计算得到对应的标准词汇的权重。

基于以上实施例，如图12所示，在另一个实施例中，步骤310中的从所述媒体的相关信息中提取所述描述维度对应的描述词汇可以包括如下子步骤：

子步骤610：获取与所述描述维度对应的源字段的标识符.

这里，预先为每个描述维度设置了若干个源字段；

子步骤620：根据所述源字段的标识符从所述媒体的相关信息中获取源字段；

子步骤630：从获取的所述源字段中提取所述描述维度对应的描述词汇。

基于以上实施例，如图13所示，在另一个实施例中，步骤630中的从获取的所述源字段中提取所述描述维度对应的描述词汇可以包括如下子步骤：

子步骤710：获取与所述描述维度对应的源字段的置信度。

在执行此步骤之前，为每个描述维度对应的每个源字段设置了置信度，同一个源字段在对应于不同的描述维度时的置信度可以不同。

子步骤720：选取置信度大于第三预定值的源字段，并从选取得到的源字段中提取所述描述词汇。

所述第三预定值可以根据应用场景的实际需求设置，例如设置为0、1等。

在具体实施过程中，可以从表3所示的表格中获取置信度。如表3所示，第一列从第三行开始存储了预设的多个描述维度，例如，包括animal动物、award奖项、evalending结局、evalstory情节、evalsubject主题、evalmusic音效、evalpicture场面、herohisfigure男主性格、herolooking男主颜值、herobody男主身材、herocharacter男主性格、originalsource故事来源等。第二行和第三行从第二列开始存储了多个源字段的索引，每个源字段的索引占一个单元格，例如，name名称、alias别名、director导演、actor演员、desc简介、genre流派、country发行地、pdcompany发行公司、videoreview专业影评、mgene微基因、ulabel用户标签。其余的列和行交汇的单元格中存储有当前单元格所在行中存储的描述维度对应的当前单元格所在列中存储的源字段的置信度的倒数，例如表3中的1、2、3，数字越小置信度越大。

表3源字段提取配置表

利用表3所示的表格，可以提取得到描述维度originalsource故事来源的源字段为：review用户评论、mgene微基因、ulabel用户标签、desc简介、videoreview专业影评以及videoscene影片背景。这些源字段对应的置信度的倒数分别为(1,1,2,3,3,3)，因此，其置信度分别为(1,1,0.5,0.33,0.33,0.33)。继而利用本实施例中的预定数值筛选满足预定要求的源字段。

本实施例选取置信度大于预定值的源字段提取描述词汇，增加了生成的语义标签的准确度。

基于以上实施例，如图14所示，在另一个实施例中，步骤720中的从选取得到的源字段中提取所述描述词汇可以包括如下子步骤：

子步骤810：获取与所述描述维度对应的描述词汇提取规则。

所述描述词汇提取规则是与描述维度对应的，在执行此步骤之前需要为每个描述维度设置至少一个描述词汇提取规则。

子步骤820：根据所述描述词汇提取规则从选取得到的源字段中提取所述描述词汇。

本实施例中，描述词汇提取规则可以利用如下步骤形成：

步骤8101：获取与所述描述维度对应的第一描述词汇提取配置文件，所述第一描述词汇提取配置文件包括前缀词集合、前缀词附属词集合和第一核心词集合；所述第一核心词集合包括与所述描述维度对应的至少一个标准词汇。

所述第一描述词汇提取配置文件是预先设定的，并且是与描述维度对应的，不同的描述维度对应的第一描述词汇提取配置文件可以不同；应当说明的是，这里的第一核心词结合中不限于包括标准词汇，还可以包括与标准词汇的相似度大于某一预定的值的词汇。

步骤8102：将所述前缀词集合中的每个前缀词与所述前缀词附属词集合中每个前缀词附属词组合，并且所述前缀词位于所述前缀词附属词之前，得到若干个前缀规则。

步骤8103：将每个所述前缀规则与所述第一核心词集合中的每个核心词组合，并且所述前缀规则位于所述核心词之前，得到所述描述词汇提取规则。

本实施例中，描述词汇提取规则还可以利用如下步骤形成：

步骤8104：获取与所述描述维度对应的第二描述词汇提取配置文件，所述第二描述词汇提取配置文件包括后缀词集合、后缀词附属词集合和第二核心词集合；所述第二核心词集合包括与所述描述维度对应的至少一个标准词汇。

所述第二描述词汇提取配置文件是预先设定的，并且是与描述维度对应的，不同的描述维度对应的第二描述词汇提取配置文件可以不同；这里的第二核心词结合中不限于包括标准词汇，还可以包括与标准词汇的相似度大于某一预定的值的词汇。

步骤8105：将所述后缀词集合中的每个后缀词与所述后缀词附属词集合中每个后缀词附属词组合，并且所述后缀词位于所述后缀词附属词之前，得到若干个后缀规则。

步骤8106：将每个所述后缀规则与所述第二核心词集合中的每个核心词组合，并且所述核心词位于所述后缀规则之前，得到所述描述词汇提取规则。

本实施例中，前缀词集合中包括若干个前缀词，前缀词附属词集合中包括若干个前缀词附属词，第一核心词集合和第二核心词集合中均包括若干个核心词，后缀词集合中包括若干个后缀词，后缀词附属词集合中包括若干个后缀词附属词，词与词之间用逗号分隔。核心词可以为标准词汇。

本实施中为每个描述维度设置了第一提取配置文件和第二提取配置文件，如表4所示，prefix表示前缀词集合，prefixLevel表示前缀词附属词集合，从表4中可以看出前缀词集合prefix中包括前缀词：改编，前缀词附属词集合prefixLevel中包括前缀词附属词：自、于。核心词core包括：小说题材、短篇小说、长篇小说等。前缀规则具体由prefix和prefixLevel两部分组成，为{prefix}x{prefixLevel}，利用前缀规则与核心词形成的描述词汇提取规则为{prefix}x{prefixLevel}x{core}。此处x表示集合间的笛卡尔展开。利用前缀词规则生成的描述词汇提取规则的数量为前缀词的数量与前缀词附属词的数量以及核心词的数量的乘积。

如表4所示，suffix表示后缀词集合，suffixLevel表示后缀词附属词集合，从表4中可以看出后缀词集合suffix中包括后缀词：改编，后缀词附属词集合中包括后缀词附属词：的。后缀规则具体由suffix和suffixLevel两部分组成，为{suffix}x{suffixLevel}，利用后缀规则与核心词形成的描述词汇提取规则为{core}x{suffix}x{suffixLevel}。此处x表示集合间的笛卡尔展开。利用后缀词规则生成的描述词汇提取规则的数量为后缀词的数量与后缀词附属词的数量以及核心词的数量的乘积。

如表4所示，例如，要提取描述维度originalsource故事来源的描述词汇，则首先通过解析表4所示的表格，利用得到的配置文件生成多条描述词汇提取规则，例如：改编自小说题材、改编于小说题材、小说题材改编、小说题材改编的等。之后初始化AC自动机(Aho-Corasick automaton)，依次将对应的源字段：用户评论、用户标签、简介、专业影评、背景等的值依次传递给AC自动机，陆续匹配得到的多个originalsource故事来源的描述词汇，例如德国小说、古典小说、热门小说等，统计词频后，得到对应与originalsource故事来源的描述词汇统计表，该描述词汇统计表中存储有每个描述词汇在对应的源字段中出现的次数。上述前缀词、后缀词、前缀词附属词、后缀词附属词以及核心词均通过正则匹配的方式从关联文本中获取得到。

表4描述词汇提取配置表

suffixLevel＝，的@suffix＝改编@prefix＝改编@prefixLevel＝，自，于
	小说题材
短篇小说
	长篇小说
虚构小说
	英国小说
德国小说
	法国小说
知名小说
	古典小说
经典小说
	畅销小说
热门小说
	网络小说
自传小说

综合以上实施例，语义标签生成方法首先为每个媒体设置描述维度，为每个描述维度设置源字段，为每个描述维度的每个源字段设置置信度，为每个描述维度设置第一描述词汇提取配置文件和第二描述词汇提取配置文件，为每个描述维度设置描述词汇与标准词汇的映射关系，并设置生成语义标签的标签提取语法规则，其中标签提取语法规则包括至少一个描述维度和描述维度的组合要求。之后利用置信度确定媒体的描述维度的源字段，根据第一描述词汇提取配置文件和第二描述词汇提取配置文件，通过AC自动机的多模串匹配算法提取描述词汇，之后利用描述词汇与标准词汇的映射关系，将描述词汇进行归一化处理，确定描述维值，最后再利用生成语义标签的标签提取语法规则和确定描述维值，通过有限次迭代生成信息丰富、分布稠密的多样化语义标签，以支撑画像、推荐和搜索等后续应用。与现有方法相比，本申请的语义标签生成方法采用多模匹配提取描述词汇，再通过有限次迭代生成语义标签，可以生成更多的语义标签。通过对迭代次数的限制可以控制生成的语义标签的数量，并且在提取出描述词汇后，本申请还进一步对描述词汇做了归一化处理，能够避免同义标签的出现。

下面通过一个具体的实施例对本申请的语义标签生成方法进行说明。

本实施例以视频标签的生成场景为例，通过应用本实施例的语义标签生成方法生成规模可控、多样性好、高质量的视频语义标签。如图6所示，本实施例的语义标签生成方法包括如下步骤：

步骤910：设置源字段提取配置表、描述词汇提取配置表、标准词汇映射表以及标签提取语法规则配置表；其中源字段提取配置表用于存储媒体的若干个描述维度、每个描述维度对应的源字段的索引、每个描述维度的每个源字段的置信度；描述词汇提取配置表用于存储所有描述维度的第一描述词汇提取配置文件和第二描述词汇提取配置文件；标准词汇映射表用于存储所有描述维度的描述词汇与标准词汇的映射关系；标签提取语法规则配置表用于存储生成语义标签的标签提取语法规则，标签提取语法规则包括至少一个描述维度和描述维度的组合要求。

步骤920：根据源字段提取配置表和描述词汇提取配置表，从当前描述维度对应的源字段中提取描述词汇，并统计每个描述词汇在对应的源字段中出现的次数。其中，每个描述维度提取得到的描述词汇可能有多个。

具体地，此步骤可通过如下子步骤实现：

子步骤9201：解析源字段提取配置表，得到描述维度的源字段以及每个源字段的置信度。

子步骤9202：解析描述词汇提取配置表，生成描述词汇提取规则，即生成AC自动机的多个模式串，并将该多个模式串加载到AC自动机中。

子步骤9203：将描述维度的源字段与AC自动机的多个模式串进行匹配，得到描述维度的若干个描述词汇，并利用每个描述词汇对应的源字段的置信度以及每个描述词汇在对应的源字段中出现的次数，计算每个描述词汇的权重。由于每个描述维度对应多个描述词汇，因此本步骤得到类似于{描述维度1:{描述词汇1:权重1，描述词汇2:权重2，描述词汇3:权重3，…}，…}的结果。例如，对于originalsource故事来源这一描述维度来说，可能提取到{“originalsource”：{“侦探小说”:10,“网络小说”:1,“悬疑小说:2}，…}的结果。

步骤930：根据标准词汇映射表，将各个描述词汇归一化至对应的标准词汇，并计算标准词汇的权重，之后根据预置策略，完成同一描述维度下不同标准词汇的冲突检测和消解，即一个描述维度仅保留一个标准词汇，得到描述维度对应的描述维值。

具体地，此步骤可通过如下子步骤实现：

子步骤9301：解析标准词汇映射表，将各个描述词汇归一化至对应的标准词汇。

子步骤9302：计算每个标准词汇对应的描述词汇的权重的和，得到每个标准词汇的权重，得到类似于{描述维度1:{标准词汇1:权重1，标准词汇2:权重2，标准词汇3:权重3，…}，…}的结果，例如，步骤8203中的{“originalsource”：{“侦探小说”:10,“网络小说”:1,“悬疑小说:2}，…}，此时就会变成{“originalsource”：{“推理小说”:12,“网络小说”:1}，…}。

子步骤9303：根据预置的冲突检测及处理策略，通过权重投票的方法进行标准词汇消歧，即当一个描述维度对应多个标准词汇时，那么选取权重最高的1个标准词汇，若有多个权重最高的标准词汇，在这些标准词汇在语义上存在冲突时，将其按字典顺序排序，选择排序中最靠前的1个，作为每个描述维度的最终取值，即描述维值。得到类似于{描述维度1:{描述维值:权重}，…}。例如，上述子步骤8302中的{“originalsource”：{“推理小说”:12,”网络小说”:1}，…}，此时会变成{“originalsource”：{“推理小说”:12}，…}。

本步骤，考虑到不同用户对于同一个视频，可能会有不同观点，并且即使是同一个观点，也会出现多种表述形式。因此，需要将不同表达方式(即描述词汇)归一化，并将冲突观点(即冲突描述词汇)进行消解。

步骤940：解析标签提取语法规则配置表，得到生成语义标签的标签提取语法规则，用得到的描述维值替换语法规则中对应的描述维度，并进行多伦迭代，生成视频的语义标签。例如，子步骤9303中的{“originalsource”：{“推理小说”:12}，…}，可能就会生成类似于“根据推理小说改编的明朝历史悬疑剧”的语义标签。

本实施例的语义标签生成方法，通过设置源字段提取配置表、描述词汇提取配置表、标准词汇映射表以及标签提取语法规则配置表实现以有效监督、多模匹配的方式提取描述词汇，并通过设置的标签提取语法规则生成语义标签，同时可通过控制标签提取语法规则的数量、标签提取语法规则内描述维度的个数及迭代次数来控制生成的语义标签的数量，相比现有方法的技术方案，可以生成更多的语义标签，并保证生成可读性好、多样性强的语义标签。同时，本实施例的语义标签生成方法在提取得到描述词汇后，还更进一步对描述词汇做了归一化处理，在避免同义标签共现的同时，也间接提升了语义标签的视频分布密度。

下面再通过一个具体的实施例对本申请的语义标签生成方法进行说明。

本实施例同样以视频作为媒体来提取语义标签。如图5所示，本实施例的语义标签生成方法包括如下步骤：

步骤一：设置源字段提取配置表、描述词汇提取配置表、标准词汇映射表以及标签提取语法规则配置表；其中源字段提取配置表用于存储媒体的若干个描述维度、每个描述维度对应的源字段的索引、每个描述维度的每个源字段的置信度；描述词汇提取配置表用于存储所有描述维度的第一描述词汇提取配置文件和第二描述词汇提取配置文件；标准词汇映射表用于存储所有描述维度的描述词汇与标准词汇的映射关系；标签提取语法规则配置表用于存储生成语义标签的标签提取语法规则，其中标签提取语法规则包括至少一个描述维度和描述维度的组合要求。

步骤二：将源字段提取配置表、描述词汇提取配置表的存储位置以及已由CMS导入的视频的相关信息通过消息发送给基因提取处理子模块，基因提取处理子模块收到消息后，加载源字段提取配置表以及描述词汇提取配置表，并从指定的数据源读取每一个视频的所有相关信息，然后根据描述词汇提取配置表进行多模串匹配，获得每一个描述维度的描述词汇，统计其权重后，形成每一个视频的描述词汇统计表，并将标准词汇映射表的保存位置信息和描述词汇统计表传递给基因标准化子模块。

步骤三：基因标准化子模块根据标准词汇映射表，将每一个描述词汇映射到标准词汇，再将每个标准词汇对应的所有描述词汇的权重相加，得到每个标准词汇的权重，然后根据预设的冲突检测机制对于每一个描述维度内的多个标准词汇进行语义冲突消解，因为对同一个描述维度可能会提取出多个极性不同的标准词汇，需要通过加权的方法，确定每一个描述维度唯一的标准词汇，从而获得描述维度的描述维值。之后将标签提取语法规则配置表的保存位置信息和每个描述维度的描述维值传递给语法组合子模块。

步骤四：语法组合子模块根据标签提取语法规则配置表中的语法规则，将各个描述维度的描述维值进行多批次的语法组合，获得语义标签。

本实施例中，标签生成模块包括上述基因提取处理子模块、基因标准化子模块以及语法组合子模块，实施描述词汇的提取、描述词汇的标准以及描述维值的组合，从而自动生成语义标签。同时标签生成模块还负责生成并管理各类配置文件，例如生成并管理源字段提取配置表、描述词汇提取配置表、标准词映射表以及标签提取语法规则配置表。

本实施例的语义标签生成方法可克服现有技术中标签数量少的问题，同时该方法赋予工作人员较大的自由度，使得工作人员可以根据业务需要进行简单配置就能生成阅读性好、规模可控的语义标签。同时本实施例的语义标签生成方法通过标准词汇映射表进行归一化处理，避免生成同义的语义标签，同时能够提升语义标签的视频分布，可以更好地支撑画像、推荐和搜索等后续应用。另外，本实施例的语义标签生成方法具有领域通用性，即只要和视频元数据结构类似，同时可获大规模关联文本，就可以通过本实施例的方法提取语义标签，例如可以用本实施例的语义标签提取规则为音乐、商品、小说等提取语义标签。

对应于上述实施例的语义标签生成方法，本申请还提供了一种语义标签生成装置，该装置包括用于执行以上任意实施例中的步骤的模块和部件。

在一个实施例中，还提供了一种语义标签生成设备，所述语义标签生成设备包括上述语义标签生成装置，其中，所述语义标签生成设备包括处理器和存储器等部件；所述处理器可以执行所述存储器中所存储的程序或指令，从而实现以上任意实施例中的所述语义标签生成方法。

本实施例的语义标签生成设备，结合媒体信息的多个描述维度以及每个描述维度对应的描述维值在语义标签时被选取的最小概率，能够形成多个语义标签，克服了利用现有技术形成的语义标签数量少的缺陷，能够有效支持媒体的推荐、搜索等应用。

如图18所示，为本实施例的语义标签生成设备一个实施例的结构示意图。本实施例的语义标签生成设备用于实现前述实施例中的方法步骤。

其中，所述语义标签生成设备可以由处理器801、存储器802及收发器803等组成。

处理器801为语义标签生成设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行网络设备的各种功能和/或处理数据。所述处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

所述存储器802可以包括易失性存储器(volatile memory)，例如随机存取内存(random access memory，RAM)；还可以包括非易失性存储器(non-volatile memory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-statedrive，SSD)；存储器还可以包括上述种类的存储器的组合。所述存储器中可以存储有程序或代码，网元中的处理器通过执行所述程序或代码可以实现所述网元的功能。

所述收发器803可以用于接收或发送数据，所述收发器可以在所述处理器的控制下向终端设备或其他网络侧设备发送数据；所述收发器在所述处理器的控制下接收终端设备或其他网络侧设备发送的数据。

在一个实施例中，还提供了一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的语义标签生成方法各实施例中的部分或全部步骤。

本实施例的计算机存储介质，同样能够形成多个语义标签，克服了利用现有技术形成的语义标签数量少的缺陷，能够有效支持媒体的推荐、搜索等应用。

在一个实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述各实施例所述的方法步骤。

本实施例的计算机程序产品，同样能够形成多个语义标签，克服了利用现有技术形成的语义标签数量少的缺陷，能够有效支持媒体的推荐、搜索等应用。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语义标签生成方法，其特征在于，所述方法包括：

获取媒体的相关信息、所述媒体的描述维度的组合要求，所述组合要求用于表示所述媒体的多个所述描述维度对应的描述维值的组合形式；

根据所述媒体的相关信息确定所述描述维度对应的描述维值,所述描述维值为从所述描述维度描述所述媒体的词汇；

根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述组合要求和所述描述维度对应的描述维值生成所述媒体的语义标签，包括：

根据所述连接关系，将选取得到的描述维值进行连接，得到所述语义标签。

4.根据权利要求1至3任一项所述的方法，其特征在于，在得到所述语义标签之后，所述方法还包括：

统计每个所述语义标签所包括的描述维值的个数；

5.根据权利要求1至3任一项所述的方法，其特征在于，在得到所述语义标签之后，所述方法还包括：

统计每个所述语义标签所包括的字符的个数；

删除字符个数大于第二预定值的语义标签；其中，所述组合要求包括所述第二预定值。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述媒体的相关信息确定所述描述维度对应的描述维值，包括：

从所述媒体的相关信息中提取所述描述维度对应的描述词汇；

确定所述描述词汇对应的标准词汇，所述标准词汇为预定的词汇；

确定每个所述标准词汇的权重；

选取权重最大的所述标准词汇，得到所述描述维值。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在得到的所述描述维度对应的描述维值大于1个的情况下，从每个描述维度对应的描述维值中提取任意一个描述维值，得到多个描述维值组，每个描述维值组均包括所有的描述维度对应的描述维值；

根据所述组合要求和每个所述描述维值组中的描述维值生成语义标签。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求6所述的方法，其特征在于，确定所述标准词汇的权重，包括：

确定所述标准词汇对应的描述词汇的权重；

10.根据权利要求9所述的方法，其特征在于，确定所述描述词汇的权重，包括：

获取所述描述词汇所属的源字段的置信度；所述源字段为所述媒体的相关信息中的字段；

根据所述置信度和所述词频计算所述描述词汇的权重。

11.根据权利要求6所述的方法，其特征在于，从所述媒体的相关信息中提取所述描述维度对应的描述词汇，包括：

获取与所述描述维度对应的源字段的标识符；

从获取的所述源字段中提取所述描述维度对应的描述词汇。

12.根据权利要求11所述的方法，其特征在于，所述从获取的所述源字段中提取所述描述维度对应的描述词汇包括：

获取与所述描述维度对应的源字段的置信度；

选取置信度大于第三预定值的源字段，并从选取得到的源字段中提取所述描述词汇。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括如下步骤：

为每个所述预描述维度设置至少一个所述源字段；

为每个描述维度对应的每个所述源字段设置所述置信度。

14.根据权利要求13所述的方法，其特征在于，所述从选取得到的源字段中提取所述描述词汇包括：

获取与所述描述维度对应的描述词汇提取规则；

15.根据权利要求14所述的方法，其特征在于，所述方法还包括生成所述描述词汇提取规则的步骤：

获取与所述描述维度对应的第一描述词汇提取配置文件，所述第一描述词汇提取配置文件包括前缀词集合、前缀词附属词集合和第一核心词集合；所述第一核心词集合包括与所述描述维度对应的至少一个标准词汇；

16.根据权利要求14所述的方法，其特征在于，所述方法还包括生成所述描述词汇提取规则的步骤：

获取与所述描述维度对应的第二描述词汇提取配置文件，所述第二描述词汇提取配置文件包括后缀词集合、后缀词附属词集合和第二核心词集合；所述第二核心词集合包括与所述描述维度对应的至少一个标准词汇；

17.一种语义标签生成设备，其特征在于，所述语义标签生成设备包括处理器和存储器，其中：

所述存储器，用于存储程序指令；

所述处理器，用于执行所述存储器中所存储的程序或指令，以使所述语义标签生成设备执行权利要求1至16任一项所述的语义标签生成方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序，所述程序执行时实现权利要求1至16任一项所述的语义标签生成方法。