gpt4 book ai didi

python - Pig//Spark 作业看不到 Python 模块

转载 作者:可可西里 更新时间:2023-11-01 14:56:54 24 4
gpt4 key购买 nike

我的 hadoop 集群有一个反复出现的问题,偶尔功能代码会停止查看位于正确位置的 python 模块。我正在寻找可能遇到过相同问题的人的提示。

当我第一次开始编程并且代码停止工作时,我在这里问了一个关于 SO 的问题,有人告诉我去 sleep ,早上它应该可以工作,或者其他一些“你是个傻瓜,你一定有改变了一些东西”之类的评论。

我多次运行该代码,它有效,我去 sleep 了,早上我尝试再次运行它,但它失败了。有时我使用 CTRL+C 终止作业,有时我使用 CTRL+Z。但这只会占用资源,除此之外不会引起任何其他问题——代码仍在运行。 我还没有在代码运行后立即看到这个问题。这通常发生在第二天早上,当我在 10 小时前离开的代码工作后开始工作时。重启集群通常可以解决问题

我目前正在检查集群是否由于某种原因自行重启,或者它的某些部分是否出现故障,但到目前为止,ambari 屏幕显示所有内容都是绿色的。我不确定是否有一些自动维护或已知会搞砸的东西。

仍在努力阅读大象书,抱歉,如果第 XXXX 页上清楚地解决了这个主题,我只是还没有进入该页面。

我查看了所有错误日志,但我看到的唯一有意义的东西是在 stderr 中:

  File "/data5/hadoop/yarn/local/usercache/melvyn/appcache/application_1470668235545_0029/container_e80_1470668235545_0029_01_000002/format_text.py", line 3, in <module>

from formatting_functions import *

ImportError: No module named formatting_functions

最佳答案

所以我们解决了这个问题。这个问题是我们的设置所特有的。我们已经安装了所有的数据节点 nfs。偶尔一个节点出现故障,必须有人将其恢复并重新挂载。

我们的脚本指定了库的路径,例如:'

    pig -Dmapred.child.env="PYTHONPATH=$path_to_mnt$hdfs_library_path" ...

所以 pig 找不到这些库,因为 $path_to_mnt 对于其中一个节点无效。

关于python - Pig//Spark 作业看不到 Python 模块,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38854914/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com