gpt4 book ai didi

hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志

转载 作者:可可西里 更新时间:2023-11-01 16:27:01 26 4
gpt4 key购买 nike

我的 EMR 集群中有很多日志文件,路径为“hdfs:///logs”。每个日志条目都是多行,但有一个开始和结束标记来区分两个条目。现在,

  1. 并非日志文件中的所有条目都是有用的
  2. 有用的条目需要转换,输出需要存储在输出文件中,以便我以后可以高效地查询(使用 Hive)输出日志。

我有一个 python 脚本,它可以简单地获取一个日志文件并执行 a 部分。和 b。上面提到过,但我没有编写任何映射器或缩减器。

Hive 负责为其查询处理 Mappers 和 Reducers。请告诉我是否以及如何使用 python 脚本在所有日志上运行它并将输出保存在 'hdfs:///outputlogs' 中?

我是 Map Reduce 的新手,看过一些字数统计示例,但所有示例都有一个输入文件。在哪里可以找到具有多个输入文件的示例?

最佳答案

在这里我看到你有两个问题:

关于hadoop - 使用或不使用 Hive 在 Amazon EMR 中处理日志,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13984379/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com