gpt4 book ai didi

elasticsearch - 获取最常用的文本字段

转载 作者:行者123 更新时间:2023-12-03 01:11:31 25 4
gpt4 key购买 nike

如何获得文本字段的所有单个标记的列表以及它们的文档频率。我希望这建立一个频繁(因此没有用)停用词的特定于域的列表。
This question涵盖了我到目前为止发现的所有方法,但是

  • “关键字”数据类型不是一种选择,因为我对单个术语感兴趣(因此必须进行标记化)
  • “重要术语聚合”不是一种选择,因为我对最频繁而不是最重要的术语感兴趣
  • “termvector”不是一个选项,因为我需要孔索引,而不仅仅是特定的文档或小的子集。
  • 最佳答案

    您必须在字段上启用field_data才能执行此操作。
    但是要小心,它会严重影响所使用的堆内存。
    https://www.elastic.co/guide/en/elasticsearch/reference/current/fielddata.html

    关于elasticsearch - 获取最常用的文本字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64139823/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com