gpt4 book ai didi

java - JAVA 中 Streaming API 的最佳搜索算法

转载 作者:行者123 更新时间:2023-11-29 09:11:36 26 4
gpt4 key购买 nike

我正在使用 Twitter 流媒体搜索 20,000 个关键字,例如

https://stream.twitter.com/1/statuses/filter.json?delimited=length&track=api,software,hardwate,etc

现在我正在使用类似 for 循环的顺序搜索,但它需要很长时间才能搜索 20,000 个关键字。

Java 中是否有任何最佳搜索方法可以搜索来自高流量 http/web 的数据。

最佳答案

如果你的数据不需要实时处理,可以使用 information retrieval (IR) 技术。

有一个后端服务器可以“整夜”为您索引所有数据1。它将创建一个 inverted index , 并将收听您的应用程序。
然后您的应用程序将查询后端服务器(而不是流媒体服务器),并以标准的 IR 技术“询问”它所需的关键字作为查询。

您可以使用 Apache Lucene来帮你。 Lucene 是一个成熟的开源信息检索库,因此它可以帮助您进行索引和查询。

希望对你有帮助


(1) 这里的“过夜”指的是以下之一:

  1. 如果有一段时间该应用程序处于非 Activity 状态 - 则可以完成
  2. 有些库支持一个索引同时查询并同时 build 。我不记得lucene是否是其中之一他们。
  3. 您可以使用 2 个服务器,并且在每个时间点 - 一个将构建索引,另一个将可用于查询。

关于java - JAVA 中 Streaming API 的最佳搜索算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12055998/

26 4 0