gpt4 book ai didi

hadoop - 在多个节点中运行 Pig 脚本

转载 作者:可可西里 更新时间:2023-11-01 15:38:30 24 4
gpt4 key购买 nike

我已经配置了一个包含三个节点的 Hadoop 集群。所有节点都工作正常并已连接。

我已经在 HDFS 中上传了 28 GB 的文件并执行 Pig 脚本来处理该文件。当我执行脚本时。它仅在单个节点中运行。

能否请您给我建议并解释为什么它只在单节点上运行?我在配置中遗漏了什么吗?

我使用的是 Hadoop 2.2.0 和 Pig 0.12 版本。

最佳答案

您是否尝试在脚本中设置parallel?您有三个节点,因此您可以尝试设置为 parallel 3。将它与以下任何运算符一起使用是有意义的:

  • 合作小组
  • 加入
  • 限制
  • 订购
  • 与众不同

语法示例:group x by y parallel 3;

你的文件是什么格式的?确保它是可拆分的。

同时检查您的集群是否正常工作并正确设置。例如检查任务跟踪器(resp. YARN 中的 NodeManager)没有失败,确保 slavesmaster 文件在所有节点上设置正确(slaves 列出所有从节点,master 列出主节点)。

关于hadoop - 在多个节点中运行 Pig 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21163409/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com