- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
所以我目前正在尝试收集特定位置的推文,然后根据收集到的推文分析该位置发生的事情。我的任务基本上涉及大量数据挖掘。
然而,我遇到的主要问题是收集足够多的推文,以便我做出判断。
我一直在使用 Twitter Streaming API,但是这只提供了所有推文的 1%,这远远不够。我挖掘了 100,000 条推文,但只有很少的英文推文,更不用说与我正在寻找的位置相关的推文了。
我还注意到 Twitter 速率限制了您通过其 API 调用方法的频率。 trendsmap.com 等网站的运作情况如何?他们是否以某种方式访问了更大的数据集?
编辑: 好的,所以我尝试使用 twiiter4j API 中的地理定位功能。事实证明,如果您谨慎实现,则可以避免速率限制。然而,在发推文时实际启用地理定位功能的人数非常少。因此,这并不代表该地区的人。我似乎每次都收到相同的推文。 Twitter 确实提供了一个搜索运算符“near”,在他们的网站上效果很好。然而,据我所知,他们还没有在他们的 API 中包含这个功能。
最佳答案
如果你是searching using the Twitter API您可以使用 geocode
选项将搜索限制在特定的地理位置。
您可以使用 result_type=recent
来确保您只获得最新的推文。
最大计数
- 即每个请求的推文数量 - 为 100。
当前数量限制search requests per hour是 450。
那么,每小时最多 45,000 条推文 - 对您来说足够了吗?
tl:dr - 使用最严格的搜索参数集将结果限制为您实际需要的结果。
关于java - 收集大量推文的最佳方式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20936048/
我想开发一个 Skype 机器人,它将用户名作为输入,并根据用户输入以相反的字符大小写表示hello username。简而言之,如果用户输入他的名字 james,我的机器人会回复他为 Hello J
我是一名优秀的程序员,十分优秀!