hadoop - 通过 Pig 转储中间 MR 作业数据-6ren

hadoop - 通过 Pig 转储中间 MR 作业数据

转载作者：可可西里更新时间：2023-11-01 16:51:44

25

4

我对 Pig 的正常行为有疑问。

假设我正在编写如下 Pig 脚本:

A = LOAD some Input;
B = FILTER A BY `some condition 1`;
C = FILTER A BY `some condition 2`;
D = GROUP B BY `some column1` ;
E = GROUP C BY `some column1` ;
store D;
store E;

现在在这里，当 Pig 实际传递数据时，假设 Pig 创建了 2 个作业来执行此脚本:

Job 1 : Filters By Condition 1 and Condition 2

Job 2 : Performs the Group By Operation.

因此Job 1的输出数据被Job 2用作输入； Pig 是将作业 1 的输出数据写入磁盘，然后将该输出数据加载为作业 2 的输入数据，还是 Pig 直接将作业 1 的输出传递给作业 2(可能是将中间输出存储在内存/RAM 中，如果它有足够的)作为某种优化技术的一部分？

我的问题是，当 Pig 触发多个作业时，每个作业是将其 MR 输出放入磁盘，然后下一个作业将输出作为其输入，还是以某种方式直接将其传递给下一个作业而不将其写入磁盘.

任何支持结论的有用链接都会有很大帮助。

提前致谢干杯:)

最佳答案

Pig 在内部以 DAG 的形式执行作业。始终在 MR 作业中将作业的输出存储到磁盘。因此，为了准确回答您的问题，它将从磁盘中选择 job1 的输出。

关于hadoop - 通过 Pig 转储中间 MR 作业数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32457113/

25

4

0

文章推荐： java - 在 PIG 中合并多重关系

文章推荐： hadoop - Oozie工作流中Hive action执行参数设置

文章推荐： hadoop - Hive - 移动 HDFS 上的现有仓库位置

文章推荐： r - 无法运行程序 "Rscript"

r - 使用 R 区分 "Mr"和 "Mrs"中的 Mr
我正在使用 grep 将“先生”和“夫人”替换为“先生”。和“夫人”，但每当我输入 gsub("Mr", "Mr.", data$Title) 它还会导致所有“夫人”变成“先生”，这不完全是我正在寻找
Hadoop:MR 启动的映射器比指定的少
我在一台远程机器(四核超线程)上安装了 Hadoop 1.2.1，并且正在用 1GB 的文件(一个文件，未压缩)测试 MR 的性能当我将拆分大小设置为大约 250MB 时，我有四个映射器。在输出文件
hadoop - MR 作业各个阶段的正确顺序？
我正在尝试了解 MR 作业经历的各个阶段。我阅读了相同的在线文档。据此，我对序列的理解如下: map() -> Partitioner -> Sorting (mapper machine) ->
hadoop - 将数据传输到Hadoop MR/Pig中的作业中
我在HDFS中的数据上运行三种不同类型的作业。在当前情况下，这三个作业必须分别运行。现在，we want to run the three jobs together by piping the
python - 崩溃 MR-3020
我有几个 MR-3020，我用 OpenWRT 刷过，并在上面安装了一个 16GB ext4 USB 驱动器。启动时，将启动一个守护进程 shell 脚本，它会做两件事: 1) 它不断查看我的主程序是
hadoop - 如何在运行 MR 作业时找到存储和读取特定文件的数据节点？
我有 9 个文件，每个文件的大小都等于集群的 BlockLength，存储在 hadoop 中。我需要获取文件所在的数据节点的地址。复制因子为 3 。是否有任何 hadoop API 可以执行此操作
sql - 配置单元加入失败 mr.MapredLocalTask
我是 HIVE 和 HADOOP 的新手，在这里我试图在 hive 中加入两个示例表，其中表没有任何主外键关系只是为了练习:- 表格如下 Employees table:-
hadoop - 关于 MR inputsplit
据我所知，在将文件复制到 HDFS 时进行文件拆分和在文件上为映射器输入进行输入拆分是完全两种不同的方法。这是我的问题-- 假设我的 File1 大小是 128MB，它被分成两个 block 并存储
hadoop - 在 MR 单元中模拟上下文对象
我是 Hadoop 的新手，这是我的第一个映射器程序，我正在通过 MR 单元对其进行单元测试。我正在传递我通过配置对象设置的参数(年份) Configuration config =new
hadoop - Oozie MR 启动器有什么意义？
我使用 Sqoop、Hive 和 Pig 操作创建了一个简单的 Oozie 工作流。对于其中的每一个 Action ，Oozie 都会启动一个 MR 启动器，然后由它启动 Action (Sqoop/
git - MyRepos (MR) 默认配置
我正在运行 MR ( myrepos ) 并尝试运行全局配置。我曾尝试使用 .mrconfig 中的 DEFAULT 部分，但无济于事: [DEFAULT] clean = git clean -df
Kloxo-MR VPS主机控制面板-安装使用及中文设置方法
我们都知道kloxo这个国外非常著名的开源的服务器管理系统，虽然kloxo在国内使用起来会遇到不少的问题，但是由于kloxo可以与whmcs等整合，还是得到了不少朋友的喜爱。本文要介绍的klox
org.elasticsearch.hadoop.mr.WritableValueWriter类的使用及代码示例
本文整理了Java中org.elasticsearch.hadoop.mr.WritableValueWriter类的一些代码示例，展示了WritableValueWriter类的具体用法。这些代码示
sql-server - 在 FROM 子句中多次指定相关名称 'MR'
Create PROCEDURE [dbo].[K_RT_FixedAsset] @fromdate datetime, @todate datetime AS BEGIN SET NOCOUNT O
java - Hadoop mapreduce输入路径不存在(MR Job在寻找什么文件系统？)
我正在尝试在Hadoop集群上运行MR作业。一旦尝试成功，但是从昨天开始，我将无法运行同一命令，因为它找不到输入路径这是跟踪: [esb99usr@SBT-IPO-078 ~]$ yarn jar
hadoop - HBase MR-键/值不匹配
我正在尝试通过独立的HBase(0.94.11)执行MR代码。我已经阅读了HBase api，并修改了MR代码以读取数据并向HBase表写入结果，并且在reduce阶段遇到异常。提供部分代码(不包括
正则表达式提取带有匹配单词的句子，不停止在 "Mr."、 "Mrs."等处
我创建了一个正则表达式，可以提取包含匹配单词的句子。 [^.|?|!]*\[^.|!|?]*[\"!?:\.] 但是，它不适用于句子中含有先生/夫人/博士等的情况。例如: The adventure
python - MRJob MR 分配给Dictionary 而不是Yield？
我是 MRJob 和 MR 的新手，我想知道 MRJob MR 的传统字数统计 python 示例: from mrjob.job import MRJob class MRWordCounter(M
python - 用于提取以 Mr.|Mrs 开头的姓名的正则表达式
我试图编写正则表达式来识别以开头的名称 Mr.|Mrs. 例如 Mr. A, Mrs. B. 我尝试了几种表达方式。这些正则表达式已在在线工具 pythonregex.com 上进行检查。。使用的测
javascript - 简单的 MongoDB MR 未产生预期结果
我知道这可能非常简单或其他什么，但最近几个小时我一直在思考这个问题。我搞不清楚了。我有一个看起来像这样的集合(每个文档结构都是相同的) { "_id": "736722976", "val

首页

博学

6Ren·AI

商城

hadoop - 通过 Pig 转储中间 MR 作业数据