gpt4 book ai didi

elasticsearch - Elasticsearch-语料库大小/总词频

转载 作者:行者123 更新时间:2023-12-02 22:24:40 25 4
gpt4 key购买 nike

有没有一种方法可以获取我数据子集中某个字段的语料库大小?换句话说,我想计算某个字段的所有单词。这些单词在满足查询条件的文档中。

此信息由术语 vector 提供。术语 vector 可以应用于特定文档,但不能应用于多个文档。 Multi-term vectors允许指定文档ID列表,以检索每个文档中每个术语的每个术语 vector 统计信息。不幸的是,它们没有汇总,我必须自己汇总。

是否有一种更具 flex 的方法来实现合计项统计?我可以使用groovy scripts汇总术语 vector 吗?

解决方案:
@Val,感谢您的解决方案。所有带有my_int_value=1的文档的查询如下:

GET /index/type/_search?search_type=count
{
"query": {
"filtered": {
"filter": {
"term": {
"my_int_value": 1
}
}
}
},
"aggs" : {
"counting" : {
"sum" : {
"field" : "your_field.word_count"
}
}
}
}

最佳答案

如果您只关心字段中标记/单词的数量,则还可以在字符串字段中声明 token_count 子字段。您的映射如下所示:

{
"your_type" : {
"properties" : {
"your_field" : {
"type" : "string",
"fields" : {
"word_count": {
"type" : "token_count",
"store" : "yes",
"analyzer" : "standard"
}
}
}
}
}
}

然后在查询中,您可以引用 your_field.word_count字段以获取 your_field中可用的标记/单词的数量。

关于elasticsearch - Elasticsearch-语料库大小/总词频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31991121/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com