gpt4 book ai didi

hadoop - 使用Hadoop设计分析系统

转载 作者:行者123 更新时间:2023-12-02 20:07:39 25 4
gpt4 key购买 nike

我才刚刚开始学习大数据,并且对Hadoop感兴趣。我正计划构建一个简单的分析系统,以了解发生在我网站中的某些事件。

因此,我计划使用代码(前端和后端)来触发一些将消息排队的事件(最有可能是RabbitMQ)。然后,这些消息将由使用者处理,该使用者会将数据连续写入HDFS。然后,我可以随时运行map reduce作业来分析当前数据集。

我倾向于Hadoop功能的Amazon EMR。所以我的问题是,从运行使用者的服务器上,如何将数据保存到HDFS?我知道有一个类似“hadoop dfs -copyFromLocal”的命令,但是如何在服务器之间使用呢?有没有可用的工具?

有没有人尝试过类似的事情?我很想听听您的实现。详细信息和示例将非常有帮助。谢谢!

最佳答案

如果提到EMR,它是从s3存储中的文件夹中获取输入的,因此您可以使用喜欢的语言库将数据推送到s3,以便稍后使用EMR作业对其进行分析。例如,在python中,可以使用boto

甚至有驱动程序允许您将s3存储作为设备挂载,但是不久前,所有驱动程序都存在问题,无法在生产系统中使用。可能随着时间的推移事物发生了变化。

EMR FAQ:

Q: How do I get my data into Amazon S3? You can use Amazon S3 APIs to upload data to Amazon S3. Alternatively, you can use many open source or commercial clients to easily upload data to Amazon S3.



请注意,emr(以及s3)都意味着额外的成本,并且它的使用对于真正的大数据是合理的。还要注意,从Hadoop性能和存储成本两方面考虑,拥有相对较大的文件总是有益的。

关于hadoop - 使用Hadoop设计分析系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21048287/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com