gpt4 book ai didi

elasticsearch - 如何使用Elasticsearch在一组文本上计算同现

转载 作者:行者123 更新时间:2023-12-03 01:57:23 24 4
gpt4 key购买 nike

我正在收集有关ElasticSearch的报纸文章。我想找到一个主题中最常出现的单词。 ElasticSearch有可能吗?我举一个例子来更好地解释:
我在我的收藏集中搜索唐纳德·特朗普,发现了2000篇文章。是否可以解析所有这些文章,收集所有 token 并对其进行排序以计数?

像这样:

 {Donald Trump {USA: 200 times on 150 docs}, {presidential: 180 times on 130 docs},{Clinton: 150 times on 100 docs},{republican: 120 times on 110 docs}, etcetera...

最佳答案

虽然“术语”聚合确实可以为您提供您所描述的数据,但是您可能希望研究significant terms aggregation以获得更深入的数据。

以您的示例为例,搜索“王牌”将给您“美国”作为最常见的术语,但是对于“候选人”数据集中的大多数其他查询,情况就是如此。一个重要的术语聚合可能会显示“共和”,这是查询所描述的子集的更重要的特征。

关于elasticsearch - 如何使用Elasticsearch在一组文本上计算同现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35557480/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com