- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我对 Pig 的正常行为有疑问。
假设我正在编写如下 Pig 脚本:
A = LOAD some Input;
B = FILTER A BY `some condition 1`;
C = FILTER A BY `some condition 2`;
D = GROUP B BY `some column1` ;
E = GROUP C BY `some column1` ;
store D;
store E;
现在在这里,当 Pig 实际传递数据时,假设 Pig 创建了 2 个作业来执行此脚本:
Job 1 : Filters By Condition 1 and Condition 2
Job 2 : Performs the Group By Operation.
因此Job 1的输出数据被Job 2用作输入; Pig 是将作业 1 的输出数据写入磁盘,然后将该输出数据加载为作业 2 的输入数据,还是 Pig 直接将作业 1 的输出传递给作业 2(可能是将中间输出存储在内存/RAM 中,如果它有足够的)作为某种优化技术的一部分?
我的问题是,当 Pig 触发多个作业时,每个作业是将其 MR 输出放入磁盘,然后下一个作业将输出作为其输入,还是以某种方式直接将其传递给下一个作业而不将其写入磁盘.
任何支持结论的有用链接都会有很大帮助。
提前致谢干杯:)
最佳答案
Pig 在内部以 DAG 的形式执行作业。始终在 MR 作业中将作业的输出存储到磁盘。因此,为了准确回答您的问题,它将从磁盘中选择 job1 的输出。
关于hadoop - 通过 Pig 转储中间 MR 作业数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32457113/
我正在使用 grep 将“先生”和“夫人”替换为“先生”。和“夫人”,但每当我输入 gsub("Mr", "Mr.", data$Title) 它还会导致所有“夫人”变成“先生”,这不完全是我正在寻找
我在一台远程机器(四核超线程)上安装了 Hadoop 1.2.1,并且正在用 1GB 的文件(一个文件,未压缩)测试 MR 的性能 当我将拆分大小设置为大约 250MB 时,我有四个映射器。在输出文件
我正在尝试了解 MR 作业经历的各个阶段。我阅读了相同的在线文档。 据此,我对序列的理解如下: map() -> Partitioner -> Sorting (mapper machine) ->
我在HDFS中的数据上运行三种不同类型的作业。 在当前情况下,这三个作业必须分别运行。 现在,we want to run the three jobs together by piping the
我有几个 MR-3020,我用 OpenWRT 刷过,并在上面安装了一个 16GB ext4 USB 驱动器。启动时,将启动一个守护进程 shell 脚本,它会做两件事: 1) 它不断查看我的主程序是
我有 9 个文件,每个文件的大小都等于集群的 BlockLength,存储在 hadoop 中。我需要获取文件所在的数据节点的地址。复制因子为 3 。 是否有任何 hadoop API 可以执行此操作
我是 HIVE 和 HADOOP 的新手,在这里我试图在 hive 中加入两个示例表,其中表没有任何主外键关系只是为了练习:- 表格如下 Employees table:-
据我所知,在将文件复制到 HDFS 时进行文件拆分和在文件上为映射器输入进行输入拆分是完全两种不同的方法。 这是我的问题-- 假设我的 File1 大小是 128MB,它被分成两个 block 并存储
我是 Hadoop 的新手,这是我的第一个映射器程序,我正在通过 MR 单元对其进行单元测试。 我正在传递我通过配置对象设置的参数(年份) Configuration config =new
我使用 Sqoop、Hive 和 Pig 操作创建了一个简单的 Oozie 工作流。对于其中的每一个 Action ,Oozie 都会启动一个 MR 启动器,然后由它启动 Action (Sqoop/
我正在运行 MR ( myrepos ) 并尝试运行全局配置。我曾尝试使用 .mrconfig 中的 DEFAULT 部分,但无济于事: [DEFAULT] clean = git clean -df
我们都知道kloxo这个国外非常著名的开源的服务器管理系统,虽然kloxo在国内使用起来会遇到不少的问题,但是由于kloxo可以与whmcs等整合,还是得到了不少朋友的喜爱。本文要介绍的klox
本文整理了Java中org.elasticsearch.hadoop.mr.WritableValueWriter类的一些代码示例,展示了WritableValueWriter类的具体用法。这些代码示
Create PROCEDURE [dbo].[K_RT_FixedAsset] @fromdate datetime, @todate datetime AS BEGIN SET NOCOUNT O
我正在尝试在Hadoop集群上运行MR作业。一旦尝试成功,但是从昨天开始,我将无法运行同一命令,因为它找不到输入路径 这是跟踪: [esb99usr@SBT-IPO-078 ~]$ yarn jar
我正在尝试通过独立的HBase(0.94.11)执行MR代码。 我已经阅读了HBase api,并修改了MR代码以读取数据并向HBase表写入结果,并且在reduce阶段遇到异常。提供部分代码(不包括
我创建了一个正则表达式,可以提取包含匹配单词的句子。 [^.|?|!]*\[^.|!|?]*[\"!?:\.] 但是,它不适用于句子中含有先生/夫人/博士等的情况。 例如: The adventure
我是 MRJob 和 MR 的新手,我想知道 MRJob MR 的传统字数统计 python 示例: from mrjob.job import MRJob class MRWordCounter(M
我试图编写正则表达式来识别以开头的名称 Mr.|Mrs. 例如 Mr. A, Mrs. B. 我尝试了几种表达方式。这些正则表达式已在在线工具 pythonregex.com 上进行检查。 。使用的测
我知道这可能非常简单或其他什么,但最近几个小时我一直在思考这个问题。我搞不清楚了。我有一个看起来像这样的集合(每个文档结构都是相同的) { "_id": "736722976", "val
我是一名优秀的程序员,十分优秀!