gpt4 book ai didi

python - 通过 Amazon EC2 Hadoop 下载许多大文件

转载 作者:行者123 更新时间:2023-12-02 21:57:53 25 4
gpt4 key购买 nike

我正在考虑在亚马逊 ec2 上启动一个 hadoop 集群来下载数万个文件,然后对它们进行一些处理,但在投入大量工作之前,我想知道是否有比我更有经验的 hadoop 的人认为有可能的?我对能否在 hadoop slave 上下载文件有一些疑问。

如果您认为这是可能的,我可以期望在 amazon ec2 上运行的每个从站都具有不同的 IP 地址吗?

我想使用 python 来完成大部分工作(例如用于下载的 urllib2 模块)和尽可能少的 java。

最佳答案

可以将数据下载到 ec2 上的 hadoop 上。 Hadoop 有一个分布式文件系统 (HDFS),它负责将数据 block 放置到从属服务器上,并遵守配置中指定的复制因子。

ec2 中的 slave 有不同的 ip 地址。

关于python - 通过 Amazon EC2 Hadoop 下载许多大文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9259531/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com