- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
主要问题:Twitter 的速率限制是否允许我进行必要的数据挖掘,以构建一个完整的社交网络图,在大约 600K 用户之间具有所有有向边?
这是一个想法:
网络中的边/关系/关系将是追随者/追随者关系。
从大约 600 个 Twitter 用户的特定列表开始,选择这些用户是因为他们都来自大城市的所有新闻媒体。
收集所有 600 个用户的所有关注者和 friend (他们关注的人)。这些用户的平均粉丝数可能为 2,000。他们的 friend (他们关注的人)的平均数量可能为 500。
由于这 600 人的这些追随者都在同一个城市,因此预计这些追随者中的许多人将是追随这 600 人的同一用户。所以让我们近似猜测一下,这 600 个用户总共有大约 600,000 个关注者和 friend 。所以这将是一个包含 600,600 个 Twitter 用户的子图/网络。
因此,一旦我收集了所有这 600 个人的所有 600,000 名关注者和 friend ,我希望能够构建所有这 600,600 人和他们的关注者的社交网络。这将要求我至少能够找到这 600,600 个用户中的所有有向边(无论这 600,600 个用户中的每一个是否相互跟随)。
有了 Twitter 的速率限制,这种数据挖掘是否可行?
最佳答案
我将按相反的顺序回答这些问题,首先从大卫·马克思开始:
嗯,我确实可以访问一个非常强大的计算机研究中心,它拥有大量的存储容量,所以这应该不是问题。不过不知道这个软件能不能搞定。
很有可能我将不得不缩小项目的规模,这没关系。我的想法是从一个更大的想法开始,弄清楚它可以有多大,然后相应地缩减。
现在跟进 Anony-Mousse 的问题:我的部分问题是我不确定我是否正确解释了 Twitter 速率限制。我不确定是每 15 分钟 15 个请求,还是每 15 分钟 30 个请求。而且我认为 1 个请求将获得 5000 个关注者/ friend ,因此如果限制为每 15 分钟 15 个请求,您大概可以每 15 分钟收集 75,000 个 friend 或关注者。我还试图弄清楚是否有任何流程可以为任何类型的研究目的要求更高的速率限制。
这是他们列出限制的地方:
https://dev.twitter.com/docs/rate-limiting/1.1/limits
关于twitter - Twitter 的速率限制是否允许我进行必要的数据挖掘以构建一个大约 60 万用户的完整社交网络图?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16985976/
我不太关心数据挖掘,但我需要一些关于聚类的想法。让我先描述一下我的问题。 我有大约 100 个包含用户评论的数据表。例如,我试图找到描述质量的词。一个人可以说这是惊人的质量,另一个人可以说质量很好,现
我是数据挖掘的新手,如果这个问题对任何人来说都是显而易见的问题,我深表歉意。我知道有很多数据挖掘算法,例如顺序模式挖掘或先验算法。我想知道如果我有一个包含大约 20,000 名学生的数据库,我实现的以
我想从一个有很多变量的过程中获得最大的性能,其中很多变量是无法控制的。 我无法进行数千次实验,所以如果我可以进行数百次实验就更好了 改变许多可控参数 收集许多表明性能的参数的数据 对于那些我无法控制的
这基本上就是我正在做的。我从 en.wikipedia.org 中选择了一篇科学文章,并获得了已进行编辑的用户列表以及他们编辑该文章的次数。为了得到这个,我按照页面中的链接将我带到 toolserve
我有一个大型的简历 (CV) 数据库,以及一个skills 表,用于对所有用户的技能进行分组。 在该表中有一个字段 skill_text 以全文描述技能。 我正在寻找一种算法/软件/方法来从该表中提取
我们正在考虑购买数据挖掘软件以主要运行预测分析过程。 SQL Server 数据挖掘解决方案与 IBM 的 SPSS 等其他解决方案相比如何? 由于 SQL Server DM 包含在 SQL Ser
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我使用 jQuery 创建了一个不错的库,它在浏览器中运行,基本上完成了从各种 html 页面中挖掘任意数据的任务。我想将此库迁移到运行 PHP 的 Apache 服务器并在服务器端运行它。但是,我不
我正在开始一项工作,使用 python 和 pandas 分析来自 Eurostat 等统计机构的数据。我发现有两种方法可以从 Eurostat 获取数据。 pandas_datareader:貌似很
我在看 JDM。这仅仅是一个与其他进行实际数据挖掘的工具交互的 API 吗?或者这是一组包含实际数据挖掘算法的包? 最佳答案 啊,奇迹 the interweb : Java Data Mining
我编写了数据挖掘先验算法,它在小测试数据上运行良好,但在更大的数据集上运行它时遇到问题。 我正在尝试生成经常一起购买的元素的规则。 我的小测试数据是5个交易和10个产品。 我的大测试数据是 1100
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等) note:项目链接以及码源见文末 1.赛题简介 了解赛题 赛题
人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间的界限到底是什么? 最佳答案 这只是一个人(受过 ML 正式培训)的观点;其他人可能会以
我不确定这个问题是否正确,但我要求解决我的疑问。 对于机器学习/数据挖掘,我们需要了解数据,这意味着您需要学习Hadoop,它在Java中有实现> 用于 MapReduce(如果我错了请纠正我)。 H
我是一名优秀的程序员,十分优秀!