gpt4 book ai didi

twitter - 抓取 Twitter 用户和关注者数据

转载 作者:行者123 更新时间:2023-12-02 16:44:50 25 4
gpt4 key购买 nike

我有一个庞大的 Twitter 用户数据库(大约 600 万)。我有用户 ID、登录句柄、他们最近的推文、联系方式、位置等。

我想从中建立一个用户关注者列表。基本上我想创建另一个有两列的表 -1)用户ID(我拥有的用户的ID)2) Follower-ID(该用户的所有关注者的 ID,以分号分隔)

例如:如果 ID 为 001 的用户正在被 ID 为 002,003 的用户关注,则记录将如下所示 -

用户 ID - 001关注者 ID - 002;003

我希望最好使用 Java 来实现这一点,但我也对其他语言持开放态度。

我尝试使用 twitter4j(一个 Java 库来获取推文、用户等),但它对每天的 API 调用数量有限制。使用 twitter SEARCH OR REST API 是不可能的,因为它不会给我特定用户的关注者的 ID。

我的教授建议我的另一种方法是抓取 Twitter 的网页。例如 - 如果用户句柄是 xxx 那么我需要抓取以下链接 -

https://twitter.com/xxx/followers

获取此网页并解析 HTML 以获取关注者 ID。我用 Firebug 检查了网页,我可以看到所有关注者的 ID!

这里的问题是 - 我该如何为我拥有的 600 万用户做到这一点? (我有句柄,所以我只需要抓取上面提到的链接,用下一个句柄替换xxx)

我试图使用 Crawleer4j - 一个网络爬虫来抓取 Twitter 页面,但由于 Twitter 提高了其安全性 - 这也是不可能的。

我该怎么做?请帮忙 - 我正在这样做作为我的研究项目的一部分,但我真的被困在这里。

我想找到一种方法来抓取 Twitter 网页以获取所需的信息。

请帮忙!

最佳答案

我将从下面的链接开始。这是可以做到的,但需要相当长的时间。

https://dev.twitter.com/docs/api/1.1/get/followers/ids

https://dev.twitter.com/docs/api/1.1/get/friends/ids

考虑到 Justin Beiber 拥有 40,000,000 名关注者,因此使用一个代币进行拉动将需要 5 1/2 天。

40,000,000(关注者)/5,000(通话中返回的记录)/15(15 分钟内最多休息通话)/4(1 小时内间隔 15 分钟)= 133 小时

关于twitter - 抓取 Twitter 用户和关注者数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17581463/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com