[go: up one dir, main page]

ES 搜索10 (match_phrase 搜索 多值字段)

多值字段

对多值字段使用短语匹配时会发生奇怪的事。 想象一下你索引这个文档:

PUT /my_index/groups/1
{
    "names": [ "John Abraham", "Lincoln Smith"]
}

然后运行一个对 Abraham Lincoln 的短语查询:

GET /my_index/groups/_search
{
    "query": {
        "match_phrase": {
            "names": "Abraham Lincoln"
        }
    }
}

令人惊讶的是, 即使 Abraham 和 Lincoln 在 names 数组里属于两个不同的人名, 我们的文档也匹配了查询。 这一切的原因在Elasticsearch数组的索引方式。

在分析 John Abraham 的时候, 产生了如下信息:

  • Position 1: john
  • Position 2: abraham

然后在分析 Lincoln Smith 的时候, 产生了:

  • Position 3: lincoln
  • Position 4: smith

换句话说, Elasticsearch对以上数组分析生成了与分析单个字符串 John Abraham Lincoln Smith 一样几乎完全相同的语汇单元。 我们的查询示例寻找相邻的 lincoln 和 abraham , 而且这两个词条确实存在,并且它们俩正好相邻, 所以这个查询匹配了。

幸运的是, 在这样的情况下有一种叫做 position_increment_gap 的简单的解决方案, 它在字段映射中配置 。

DELETE /my_index/groups/      1

PUT /my_index/_mapping/groups      2
{
    "properties": {
        "names": {
            "type":                "string",
            "position_increment_gap": 100
        }
    }
}

1

首先删除映射 groups 以及这个类型内的所有文档。

2

然后创建一个有正确值的新的映射 groups 。

position_increment_gap 设置告诉 Elasticsearch 应该为数组中每个新元素增加当前词条 position 的指定值。 所以现在当我们再索引 names 数组时,会产生如下的结果:

  • Position 1: john
  • Position 2: abraham
  • Position 103: lincoln
  • Position 104: smith

现在我们的短语查询可能无法匹配该文档因为 abraham 和 lincoln 之间的距离为 100 。 为了匹配这个文档你必须添加值为 100 的 slop 。

在 Elasticsearch 中,可以使用 multi_match 查询来匹配多个字段,然后再使用 match_phrase 查询来进行精确匹配。 具体的代码可以参考下面这个例子: ```java import org.elasticsearch.action.search.SearchRequestBuilder; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.client.transport.TransportClient; import org.elasticsearch.common.transport.InetSocketTransportAddress; import org.elasticsearch.index.query.BoolQueryBuilder; import org.elasticsearch.index.query.MatchPhraseQueryBuilder; import org.elasticsearch.index.query.QueryBuilders; import org.elasticsearch.index.query.MultiMatchQueryBuilder; TransportClient client = TransportClient.builder().build() .addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("localhost"), 9300)); MultiMatchQueryBuilder multiMatchQueryBuilder = QueryBuilders.multiMatchQuery("search phrase", "field1", "field2", "field3"); MatchPhraseQueryBuilder matchPhraseQueryBuilder = QueryBuilders.matchPhraseQuery("field1", "search phrase"); BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery(); boolQueryBuilder.should(multiMatchQueryBuilder); boolQueryBuilder.should(matchPhraseQueryBuilder); SearchRequestBuilder searchRequestBuilder = client.prepareSearch("index_name") .setQuery(boolQueryBuilder) .setSize(10); SearchResponse searchResponse = searchRequestBuilder.get(); ``` 在这个例子中,我们首先创建了一个 MultiMatchQueryBuilder 对象,并通过 addFields 方法来指定要匹配的字段。接着,我们创建了一个 MatchPhraseQueryBuilder 对象,并指定要匹配的字段和精确匹配的搜索词。 然后,我们创建了一个 BoolQueryBuilder 对象,并通过 should 方法来将 multiMatchQueryBuilder 和 matchPhraseQueryBuilder 对象添加到 boolQueryBuilder 中,表示其中一个条件满足即可。 最后,我们将 boolQueryBuilder 对象传入 SearchRequestBuilder 的 setQuery 方法中,完成查询操作。 希望这个例子可以帮助到您。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值