gpt4 book ai didi

java - Hadoop-MapReduce 的小型数据集

转载 作者:可可西里 更新时间:2023-11-01 14:20:28 26 4
gpt4 key购买 nike

我正在尝试熟悉 Hadoop-MapReduce。在学习了这些概念的理论知识之后,我想对它们进行实践。

但是,我找不到适用于该技术的小型数据集(最多 3 Gb)。我在哪里可以找到数据集来进行练习?

或者,我该如何练习 Hadoop-MapReduce?换句话说,有没有提供练习的教程或网站?

最佳答案

可公开访问的数据集,您可以下载并试用。下面是一个几个例子。

http://www.netflixprize.com/index — 作为比赛的一部分,它发布了一组用户评分数据,以挑战人们更好地发展推荐算法。未压缩的数据为 2 GB+。它包含480,000 名用户对 17,000 部电影的 100,000,000+ 部电影评分。

http://aws.amazon.com/publicdatasets/ ——例如,其中之一生物数据集是大约 550 GB 的带注释的人类基因组数据。在下面经济学,您可以找到数据集,例如 2000 年美国人口普查(大约200 GB)。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ ——卡内基梅隆大学语言技术研究所发布了 ClueWeb09 数据集来帮助大规模网络研究。它以 10 种语言抓取了 10 亿个网页。这未压缩的数据集占用 25 TB。

关于java - Hadoop-MapReduce 的小型数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12915128/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com