gpt4 book ai didi

python - 登录 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:54:06 28 4
gpt4 key购买 nike

我正在尝试运行 map reduce 作业。但是当我运行这个作业时,我无法找到我的日志文件。我正在使用 hadoop 流作业来执行 map reduce,我正在使用 Python。我正在使用 python 的日志记录模块来记录消息。当我使用“cat”命令在文件上运行它时,会创建日志文件。

cat file | ./mapper.py 

但是当我通过 hadoop 运行这个作业时,我无法找到日志文件。

import os,logging

logging.basicConfig(filename="myApp.log", level=logging.INFO)
logging.info("app start")

##
##logic with log messages
##

logging.info("app complete")

但是我在任何地方都找不到 myApp.log 文件。日志数据是存储在任何地方还是 hadoop 忽略应用程序日志记录完成。我也在 userlogs 文件夹中搜索了我的日志项,但看起来我的日志项不在那里。

我处理大量数据,其中随机项目没有进入下一阶段,这对我们来说是一个非常大的问题,所以我试图找到一种方法来使用日志记录来调试我的应用程序。

感谢任何帮助。

最佳答案

我相信您正在登录 stdout?如果是这样,您绝对应该登录 stderr,或者创建您自己的自定义流。

使用 hadoop-streaming,stdout 是专用于在映射器/缩减器之间传递键值并输出结果的流,因此您不应在其中记录任何内容。

关于python - 登录 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23072602/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com