gpt4 book ai didi

hadoop - 使用Hadoop查询github数据

转载 作者:可可西里 更新时间:2023-11-01 16:38:51 24 4
gpt4 key购买 nike

我正在尝试使用 hadoop 查询 ghtorrent API 提供的 GitHub 数据。如何将这么多数据(4-5 TB)注入(inject) HDFS?此外,他们的数据库是实时的。是否可以使用pig、hive、hbase等工具在hadoop中处理实时数据?

最佳答案

通过this推介会 。它描述了您可以连接到他们的 MySql 或 MongoDb 实例并获取数据的方式。基本上你必须共享你的公钥,他们会将该 key 添加到他们的存储库,然后你就可以 ssh 了。作为替代方案,您可以从 this 下载它们的定期转储。链接

导入链接:

要处理实时数据,您不能使用 Pig、Hive 来做。这些是批处理工具。考虑使用 Apache Spark。

关于hadoop - 使用Hadoop查询github数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45855729/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com