gpt4 book ai didi

elasticsearch - 在 Elasticsearch 中实现趋势分析

转载 作者:行者123 更新时间:2023-12-05 05:36:02 25 4
gpt4 key购买 nike

我正在构建一个跨网站(tmz、人物等)索引名人相关内容的项目,因为我一直认为像马一样“赌”人(可能还有节目、导演等)会很有趣赛车或股票市场——只是,你知道,不是用真钱——如果我们能一起解决这个问题,那么人的值(value)每天、每小时甚至每分钟都在变化,堆栈溢出居民。

我根据社交媒体中的提及为用户分配流量值。我有一些爬虫(可能违反了一些服务条款)并访问了 Twitter 的 API 以获取搜索结果的相对计数,所以我知道“数字”可以在一段时间内与 elasticsearch 之外的用户相关联以建立趋势。现在要明确一点,我不希望根据系统中的文档数量实现趋势分析,这实际上保持相当一致,但我需要根据趋势对已经存在的文档进行排名。

这就是我所拥有的:几十万篇与个别名人有预定关联的文章。分数与那些名人的即时关联数据,然后将这些数据合并并应用于每篇文章,以便每篇文章都有一些关联的分数(这里有一些复杂性无关紧要,但最重要的是我有我想分配给内容的 10 个左右的值,以便在您进入市场页面时对其进行排序,并且我想使用函数或脚本分数对它们进行排序)。

那么问题:我到底如何分配这些值而不会使 elasticsearch 因重新索引而疯狂?我需要使用这些值来对来自网站提要的每秒数十个请求进行排序,但我是在树莓派上运行它的……从字面上看,我已经把这可怜的东西用完了。

我们的写作量确实很大,但如果名人股票市场出于某种原因起飞,我们同时也很容易阅读。我发誓我记得有一个插件具有与内容关联的元数据,但我找不到它。

我已经尝试过 enable=false 和 index=false,但它们在写入更新时似乎仍然会影响读取时间。我得到的最好办法是减慢 refresh_interval,但这仍然非常昂贵,并且开始影响应用程序的“实时”特性。

最佳答案

我相信这是不可能的,正如您所说的那样。对字段的任何更新都将更新 _source 并触发完整的更新过程。

您可能会考虑一些替代方案:

  • 复制,如果另一个集群可用
  • 同一集群上的单独写入索引,空间允许

关于elasticsearch - 在 Elasticsearch 中实现趋势分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/73367866/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com