gpt4 book ai didi

java - 收集大量推文的最佳方式?

转载 作者:行者123 更新时间:2023-11-30 09:13:43 25 4
gpt4 key购买 nike

所以我目前正在尝试收集特定位置的推文,然后根据收集到的推文分析该位置发生的事情。我的任务基本上涉及大量数据挖掘。

然而,我遇到的主要问题是收集足够多的推文,以便我做出判断。

我一直在使用 Twitter Streaming API,但是这只提供了所有推文的 1%,这远远不够。我挖掘了 100,000 条推文,但只有很少的英文推文,更不用说与我正在寻找的位置相关的推文了。

我还注意到 Twitter 速率限制了您通过其 API 调用方法的频率。 trendsmap.com 等网站的运作情况如何?他们是否以某种方式访问​​了更大的数据集?

编辑: 好的,所以我尝试使用 twiiter4j API 中的地理定位功能。事实证明,如果您谨慎实现,则可以避免速率限制。然而,在发推文时实际启用地理定位功能的人数非常少。因此,这并不代表该地区的人。我似乎每次都收到相同的推文。 Twitter 确实提供了一个搜索运算符“near”,在他们的网站上效果很好。然而,据我所知,他们还没有在他们的 API 中包含这个功能。

最佳答案

如果你是searching using the Twitter API您可以使用 geocode 选项将搜索限制在特定的地理位置。

您可以使用 result_type=recent 来确保您只获得最新的推文。

最大计数 - 即每个请求的推文数量 - 为 100。

当前数量限制search requests per hour是 450。

那么,每小时最多 45,000 条推文 - 对您来说足够了吗?

tl:dr - 使用最严格的搜索参数集将结果限制为您实际需要的结果。

关于java - 收集大量推文的最佳方式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20936048/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com