gpt4 book ai didi

resources - 免费的大型数据集来试验 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:06:43 24 4
gpt4 key购买 nike

你知道有什么大型数据集可以免费/低成本地使用 Hadoop 进行试验吗?感谢任何相关的指针/链接。

偏好:

  • 至少 1 GB 的数据。

  • 网络服务器的生产日志数据。

到目前为止我发现的很少:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

我们也可以运行我们自己的爬虫来从网站收集数据,例如维基百科?也欢迎任何有关如何执行此操作的指示。

最佳答案

关于您关于抓取和维基百科的问题的几点说明。

您已链接到 wikipedia data dumps你可以使用 Cloud9 UMD 的项目在 Hadoop 中处理这些数据。

他们有一个页面:Working with Wikipedia

要添加到列表中的另一个数据源是:

  • ClueWeb09 - 1 月至 2 月 9 日期间收集了 10 亿个网页。压缩 5TB。

使用爬虫生成数据应该在一个单独的问题中发布,我会说一个关于 Hadoop/MapReduce 的问题。

关于resources - 免费的大型数据集来试验 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2674421/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com