hadoop - 在对Pig使用grunt并调试涉及同一张表的不同操作的脚本时，如何避免使用多个Map Reduce作业？-6ren

hadoop - 在对Pig使用grunt并调试涉及同一张表的不同操作的脚本时，如何避免使用多个Map Reduce作业？

转载作者：行者123 更新时间：2023-12-02 21:36:44

25

4

我在Pig上工作时在grunt shell中工作。

我有A表colA。

我想按A对表colA进行分组，并将其存储在文件grACount中，并将grACount的过滤结果存储在一个名为grACountFilter的文件中。

如果我在grunt shell中编写如下语句:

grA = GROUP A BY colA;
grACount = FOREACH grA GENERATE group as colA, COUNT(A.colA) as countColA;
STORE grACount into 'grACount';
grACountFilter = FILTER grACount BY countColA>15;
STORE grACountFilter into 'grACountFilter';

然后它将为第3行提交一个 map 缩小作业，然后为第5行再次提交，对吗？

而且，当它再次提交第5行的作业时，它将重新计算表，对吗？

我想要的是不必提交两个不同的map reduce作业，并且一次执行所有计算。这可能吗？

最佳答案

Pig中的STORE和DUMP命令将触发作业执行。因此，您不能阻止该行为。您可以将所有STORE命令保持在一起。单个STORE或DUMP命令可能会触发多个mapreduce作业。

脚本到达STORE或DUMP命令后，将执行执行计划。作业数量取决于执行计划。

关于hadoop - 在对Pig使用grunt并调试涉及同一张表的不同操作的脚本时，如何避免使用多个Map Reduce作业？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31687695/

25

4

0

文章推荐： hadoop - 配置单元将文件加载到表副本

文章推荐： java - Hadoop 文件系统 shell 在成功执行后返回 -1

文章推荐： hadoop - 运行Hive查询时出现MySQL错误

javascript - 安装 grunt 和 grunt cli 后找不到 grunt 命令
我安装了 grunt 和 grunt cli，但仍然出现命令未找到错误 { "name": "angulartdd", "version": "1.0.0", "description":
javascript - Grunt.js grunt-contrib-watch 事件不触发 grunt.task.run
我有一个使用“grunt-contrib-watch”和“grunt-exec”的 Grunt.js 文件，这是因为我想以一种独特的方式使用 handlebars 预编译器的一些自定义功能。代码:
javascript - 使用 grunt-shell 和 grunt-ssh 运行的 Grunt 同步任务
我正忙于尝试完成我正在运行的部署脚本。它可能有一半的时间有效，而且令人沮丧，因为我使用的大部分代码都不是我写的。我真的希望有一个我可以执行的较低级别的解决方法。基本上发生的事情是我正在尝试执行 5
arguments - grunt，grunt-shell和命令参数
我想像在文档中定义的那样将参数传递给grunt-shell: module.exports = function(grunt) { // Configure Grunt grunt.initConfi
gruntjs - Grunt (Yeoman, Grunt-usemin, Grunt-rev) : The "rev' ed"font path isn't reflected in my . CSS？
背景我正在使用 Yeoman webapp 来搭建我的前端。在 gruntfile 中，他们使用 grunt-rev 和 grunt-usemin Grunt-rev 将“修改”我的 Assets
javascript - Grunt - grunt-eslint 不启动任务
我已经设置了grunt-eslint在我的 gruntfile.js 中，但是当我运行“grunt eslint”时，什么也没有发生。该任务看似即将开始，但 15 分钟后却停滞不前。我的所有其他任务
javascript - Grunt grunt-contrib- Jasmine
我最近开始使用 grunt 做 JS 项目。我有一个名为“grunt-contrib-jasmine”的插件用于 Jasmine 测试。我工作得很好，但我无法在浏览器中通过 specrunner 运
javascript - GRUNT - 安装 Grunt 包？
谁能告诉我这里做错了什么(我是 grunt 的新手)一个大学给我提供了一个基本的 gruntfile 设置我已经安装了 node、js 和 grunt，但我不知道如何安装各种包(uglify、con
gruntjs - grunt-contrib-watch + grunt-rsync
我正在尝试使用 grunt-contrib-watch和 grunt-rsync将任何文件更改上传到我的开发服务器。这是我的设置: var path = require('path'); module
javascript - Grunt pid 文件和 Grunt-kill
尝试使用grunt-kill创建一个任务来终止我的 server-scorm 任务，并最终终止所有相关任务。这些说明非常短，因为它假设我知道有关 PID 文件的所有信息(我不知道，不是开发人员的错误)
gruntjs - 如何从 Grunt 任务运行 grunt-init？
我要么脑子一片空白，要么本该更复杂。我正在尝试从 Grunt 任务运行 grunt-init，如下所示: grunt.registerTask('init', 'Scaffold various a
c# - Projectile 将墙壁和 "grunt"检测为 "grunt"
我有一个从玩家发射的射弹预制件，当它与“边界”碰撞时，它应该摧毁自己，当它击中“咕噜声”时，它应该摧毁自己和咕噜声。但是，当它碰到边界时，它会破坏自身和边界的对撞机。我创建了一个自定义标签脚本，允许我
javascript - 运行 grunt 任务时的 grunt 语法错误问题
module.exports = function(grunt){ grunt.initConfig({ pkg: grunt.file.readJSON('package.json'),
javascript - Grunt grunt-postcss Autoprefixer 不工作
我已经加入了一个非营利性开源项目，想帮点忙，但我对 Grunt 不熟悉。我做了一些研究，但无法弄清楚为什么配置不起作用。这是我正在尝试使用的插件。它允许应用多个后处理器，但我现在只需要 Autopr
javascript - grunt.registerTask 不能修改全局的 grunt 任务设置
下面的代码读取app/modules/中的每个子目录js的内容(例如app/modules/module1/js/, app/modules/module2/js/, aso.) 此脚本在不使用最后一
javascript - 设置环境变量 grunt 或 grunt-exec
我正在尝试使用 grunt-exec 运行一个 javascript 测试运行程序，并传入一个已部署的链接变量。我尝试通过使用 exec:setLink 设置环境变量 grunt.option('l
javascript - Grunt - 实时重新加载不适用于 grunt-contrib-watch
当我使用 grunt-contrib-watch 更改我的 js 文件时，我试图让 Grunt 重新加载它们。这是我的 Gruntfile: module.exports = function(gru
javascript - 一个 grunt 任务可以运行其他 grunt 任务吗？
所以我的意思是: grunt.registerTask('default', ['default']); // CLI: grunt grunt.registerTask('serve', ['ser
javascript - 如何创建顶级 grunt 文件并将其导入位于子文件夹中的另一个 grunt 文件？
我想创建一个通用的顶级 Gruntfile.js，配置为监视较少的文件更改。当less文件发生变化时，我想将其编译为css，然后在浏览器中实时加载css文件。我的功能正常，但我必须为每个项目复制 Gr
javascript - Grunt - grunt-xml poke 变量目标名称
我正在使用 grunt-xmlpoke 更新 xml 文件。 xml 文件的路径作为参数提供。问题是文件部分中的第一个 WebConfigPath (键)被视为字符串。它更新了我的 xml 文件的本地

首页

博学

6Ren·AI

商城

hadoop - 在对Pig使用grunt并调试涉及同一张表的不同操作的脚本时，如何避免使用多个Map Reduce作业？