gpt4 book ai didi

hadoop - 来自2台不同机器的Hadoop日志文件分析

转载 作者:行者123 更新时间:2023-12-02 21:47:51 27 4
gpt4 key购买 nike

我是Hadoop的新手。我必须找到在用户之间交易符号的趋势。

我有2台机器b040n10和b040n11。机器中的文件如下所述:

b040n10:/u/ssekar>ls -lrt
-rw-r--r-- 1 root root 482342353 Feb 8 2014 A.log
-rw-r--r-- 1 root root 481231231 Feb 8 2014 B.log

b040n11:/u/ssekar>ls -lrt
-rw-r--r-- 1 root root 412312312 Feb 8 2014 C.log
-rw-r--r-- 1 root root 412356315 Feb 8 2014 D.log

在所有这些日志上都有一个名为“ symbol_name ”的字段(以下示例)。
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:13:05
IP=145.45.34.2;***symbol_name=XYZ;***timestamp=12:13:56
IP=145.45.34.2;***symbol_name=ABC;***timestamp=12:14:56

我的笔记本电脑上运行的是Hadoop,并且有2台计算机连接到我的笔记本电脑(可用作数据节点)。
我现在的任务是获取 symbol_name 和符号计数的列表。
如下所述:
ABC-2
XYZ-1


我现在应该:
1.将b040n10和b040n11的所有文件(A.log,B.log,C.log,D.log)复制到我的笔记本电脑中,
2.向HDFS系统发出copyFromLocal命令并分析数据?

还是有更好的方法来找出symbol_name并进行计数而不将这些文件复制到笔记本电脑中?

这个问题是一个基本的问题,但是我是Hadoop的新手,请帮助我理解和使用Hadoop更好。如果需要有关此问题的更多信息,请告诉我。

谢谢

最佳答案

将文件从Hadoop复制到本地笔记本电脑无法实现Hadoop的全部目的,即将处理转移到数据上并非是另一种方式。因为当您真正拥有“BigData”时,您将无法移动数据来本地处理。

您的问题是Map / Reduce的典型情况,您所需要的只是一项计算每个符号的出现次数的工作。只需搜索Map / Reduce WordCount example并使其适应您的情况

关于hadoop - 来自2台不同机器的Hadoop日志文件分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23669445/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com