twitter - 抓取 Twitter 用户和关注者数据-6ren

twitter - 抓取 Twitter 用户和关注者数据

转载作者：行者123 更新时间：2023-12-02 16:44:50

25

4

我有一个庞大的 Twitter 用户数据库(大约 600 万)。我有用户 ID、登录句柄、他们最近的推文、联系方式、位置等。

我想从中建立一个用户关注者列表。基本上我想创建另一个有两列的表 -1)用户ID(我拥有的用户的ID)2) Follower-ID(该用户的所有关注者的 ID，以分号分隔)

例如:如果 ID 为 001 的用户正在被 ID 为 002,003 的用户关注，则记录将如下所示 -

用户 ID - 001关注者 ID - 002;003

我希望最好使用 Java 来实现这一点，但我也对其他语言持开放态度。

我尝试使用 twitter4j(一个 Java 库来获取推文、用户等)，但它对每天的 API 调用数量有限制。使用 twitter SEARCH OR REST API 是不可能的，因为它不会给我特定用户的关注者的 ID。

我的教授建议我的另一种方法是抓取 Twitter 的网页。例如 - 如果用户句柄是 xxx 那么我需要抓取以下链接 -

https://twitter.com/xxx/followers

获取此网页并解析 HTML 以获取关注者 ID。我用 Firebug 检查了网页，我可以看到所有关注者的 ID!

这里的问题是 - 我该如何为我拥有的 600 万用户做到这一点？ (我有句柄，所以我只需要抓取上面提到的链接，用下一个句柄替换xxx)

我试图使用 Crawleer4j - 一个网络爬虫来抓取 Twitter 页面，但由于 Twitter 提高了其安全性 - 这也是不可能的。

我该怎么做？请帮忙 - 我正在这样做作为我的研究项目的一部分，但我真的被困在这里。

我想找到一种方法来抓取 Twitter 网页以获取所需的信息。

请帮忙!

最佳答案

我将从下面的链接开始。这是可以做到的，但需要相当长的时间。

https://dev.twitter.com/docs/api/1.1/get/followers/ids

https://dev.twitter.com/docs/api/1.1/get/friends/ids

考虑到 Justin Beiber 拥有 40,000,000 名关注者，因此使用一个代币进行拉动将需要 5 1/2 天。

40,000,000(关注者)/5,000(通话中返回的记录)/15(15 分钟内最多休息通话)/4(1 小时内间隔 15 分钟)= 133 小时

关于twitter - 抓取 Twitter 用户和关注者数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17581463/

25

4

0

文章推荐： javascript - AngularJS 多个 http 请求

文章推荐： javascript - 单击时隐藏 HighCharts 中的点

jQuery $.post 关注
众所周知，jQuery 的 $.post 函数非常棒，但我遇到的问题是查看页面源代码的人可以查看数据的去向，从而移向该页面进行窥探，或者，上帝禁止找到保存所有内容的文件夹。所以我的问题是，谁知道如何隐
php - 关注/取消关注按钮问题
我在下面有这个程序，它执行简单的关注/取消关注功能。一切都很好，除了当我刷新页面时，只有行中的第一个用户保留正确的关注/取消关注按钮。示例我可以关注 user1 user2 和 user3，但是当我
mysql - 关注/取消关注组或列表的数据库架构
我想要创建的是一个关注者/关注系统，您不是简单地关注用户，而是关注他们共享的内容部分。几乎就好像您关注的是 Twitter 的“列表”或群组而不是人员。不过，有了这个，您就可以关注/取消关注用户共享的
javascript - 社交媒体订阅/关注/喜欢链接不适用于动态添加的内容
这个问题已经有答案了: facebook social plug-in not showing up when added dynamically (2 个回答) 已关闭 7 年前。使用 HTML
delphi - 关注 TImage 上的关键事件？
我正在构建一个编辑器，它使用 TImage 来显示图片，并具有鼠标事件来能够在图像上绘制、移动框和调整框大小。这一切都很完美。现在我正在尝试实现使用键盘上的箭头移动选定框的功能，但是A)TImage没
java - 关注 JTextField 的问题
我有两个问题，请记住我是一个java新手1.我有一个使用 JFrame 创建 GUI 的类。JFrame 有 2 个面板，我使用 JSplitPane 添加了问题是我可以设法将焦点设置在所需的 JP
ios - Twitter-“关注”按钮
我目前正在使用iOS应用程序进行开发，该应用程序会从流式API捕获一些推文。因此，我使用用户名和密码进行身份验证。除此之外，我想给用户提供在Twitter上关注某些人的机会。我创建了一个UIButto
scala - 关注 Play 的演变？
有没有办法钩入Play evolutions framework这样当它成功从 n.sql 迁移时至 n+1.sql至 n+2.sql ...，它在 Play 应用程序中调用了一些成功后 Hook (
jquery - 关注 jQuery 语法
我的 gorm 中有文本模式为多行的文本框。我必须通过 jQuery 将 css 应用到该文本框。为此，我使用了以下脚本。 $(document).ready(function() {
jquery - 关注 JQuery 对话框内容中的文本字段不起作用
我在强制关注动态生成的 JQuery 对话框内容中的文本字段时遇到问题。我已经在 google 上搜索过这一点，似乎如果 Jquery 对话框设置为模式，JQuery 将“窃取”文档级别的焦点。老实说
jquery - 关注 Bootstrap 选项卡中的必填字段
下午，我正在使用 PHP、HTML5 和 Bootstrap。我构建了一个分为 5 个选项卡的表单，该表单中有几个必填字段。所有必需的输入字段都是“文本”，并且还标有 required="requir
c# - 关注 gridview 中的文本框
我创建了一个带有 GridView 的 WPF 页面。在 GridView 中，每行有 5 个可用的 TextBox。当我在第一行的第一个 TextBox 上输入数据，然后按 Tab 键时，焦点移动到
java - 关注 Java 中的正则表达式和模式编译
请给我Java中密码验证的正则表达式代码，它应该由一个大写字符、一个整数、一个后面的符号(@、#、$、%、^、&、+、=)和小字符组成。我一直在尝试使用不同的独立正则表达式和一个组合的正则表达式。
css - 关注 Twitter 跨浏览器的按钮
我想在我的 mean-stack 网页上添加一个 Twitter 的关注按钮。我使用以下代码: https://jsbin.com/herikik/3/edit?html,output 在 Ma
css - Tumblr 关注/仪表板按钮现在显示了吗？
在下添加如下代码后到我在 Tumblr 上的主题 .tail { position:fixed; bottom:0px; right:0px; margin-bottom:434px; margin-
javascript - 关注 $window 打开的窗口
我必须从 Angular 应用程序启动一系列窗口。我希望能够让用户单击主页上的按钮以使该窗口重新成为焦点。通常我会在 javascript 中使用类似以下内容来执行此操作: //Launch the
css - 关注 View 上的数据样式操作
因此，我想显示一些用 AND 或 OR 连接的规则，并且我想为 AND 或 OR 添加颜色，如红色、绿色等。 Fruit = Apple AND Market = SuperMarket1 那么我应该
c# - 关注 ListView 最后添加的项目
我正在开发 Windows 商店应用程序，我正在使用 ListView 控件动态添加数据。这些项目被添加到列表的末尾。 Scrollbar 在添加更多数据时出现。我想用底部的滚动条以编程方式突出显示最
java - 关注 JTextField 的问题
(问题仅在 Ubuntu 中出现。在 Windows 中工作正常。我不知道在其他 Linux 环境中) 我已经使用 ComponentListener 的方法在对话框中调用 JTextField 中的
Android:关注 TimePicker 元素
如何将焦点放在时间选择器元素上？我正在开发电视应用程序，因此需要远程操作。所以我需要关注每个元素。TimePicker 有 3 个元素 - 小时列、分钟列和 AM/PM 列。那么我如何才能专注于这

首页

博学

6Ren·AI

商城

twitter - 抓取 Twitter 用户和关注者数据