hadoop - 当调用Apache Crunch管道在两个不同的源上读取两次时会发生什么？-6ren

hadoop - 当调用Apache Crunch管道在两个不同的源上读取两次时会发生什么？

转载作者：行者123 更新时间：2023-12-02 20:37:58

25

4

进行以下 call 时:

    PCollection<KeyValue> data1 = pipeline.read(source1);
    PCollection<KeyValue> data2 = pipeline.read(source2);
    PCollection<KeyValue> data3 = data1.union(data2);

根据Apache Crunch阅读文档，是从两个来源读取数据然后将数据连接在一起的管道吗？

最佳答案

Apache Crunch Pipeline可以读取所需的任意多个源，然后可以开始转换所需的数据，例如PCollections联合，将这些源通过DoFn或MapFn传递，以便使用MapReduce进行Documents对象组合等。

需要记住的一件事是，与Apache Spark一样，Apache Crunch也使用了惰性执行模型，这意味着在执行操作之前不会触发任何数据转换过程。在下面，我引用了Crunch documentation的一小部分。

Crunch uses a lazy execution model. No jobs are run or outputs created until the user explicitly invokes one of the methods on the Pipeline interface that controls job planning and execution. The simplest of these methods is the PipelineResult run() method, which analyzes the current graph of PCollections and Target outputs and comes up with a plan to ensure that each of the outputs is created and then executes it, returning only when the jobs are completed. The PipelineResult returned by the run method contains information about what was run, including the number of jobs that were executed during the pipeline run and the values of the Hadoop Counters for each of those stages via the StageResult component classes.

回答您的问题，是的，同一管道将读取两个源。

旁注:您可能只希望有一个管道用于数据转换。

关于hadoop - 当调用Apache Crunch管道在两个不同的源上读取两次时会发生什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50502748/

25

4

0

文章推荐： java - 带有openjdk的Hadoop:start-dfs.sh(SSH？)错误

文章推荐： python-3.x - 将 docker 容器环回绑定(bind)到主机环回

文章推荐： docker - 关于Docker文件系统的奥秘

Grails 3 Assets 管道/咖啡 Assets 管道
我正在使用 Assets 管道来管理我的 Grails 3.0 应用程序的前端资源。但是，似乎没有创建 CoffeeScript 文件的源映射。有什么办法可以启用它吗？我的 build.gradle
jenkins-pipeline - 失败后继续 Tekton 管道(类似于 jenkins 管道 catchError 行为)
我有一个我想要的管道: 提供一些资源，运行一些测试，拆资源。我希望第 3 步中的拆卸任务运行不管测试是否通过或失败，在第 2 步。据我所知 runAfter如果前一个任务成功，则只运行一个任
PowerShell 管道
如果我运行以下命令: Measure-Command -Expression {gci -Path C:\ -Recurse -ea SilentlyContinue | where Extensio
Java输入解析与分隔符| (管道)
我知道管道是一个特殊字符，我需要使用: Scanner input = new Scanner(System.in); String line = input.next
Powershell 管道 - 返回一个在管道内创建的新对象
我再次遇到同样的问题，我有我的默认处理方式，但它一直困扰着我。有没有更好的办法？所以基本上我有一个运行的管道，在管道内做一些事情，并想从管道内返回一个键/值对。我希望整个管道返回一个类型为 ps
Azure 管道 - 阶段条件取决于
我有三个环境:dev、hml 和 qa。在我的管道中，根据分支，阶段有一个条件来检查它是否会运行: - stage: Project_Deploy_DEV condition: eq(varia
Jenkins 管道 - 为什么管道选项不显示
我有 Jenkins Jenkins ver. 2.82 正在运行并想在创建新作业时使用 Pipeline 功能。但我没有看到这个列为选项。我只能在自由式项目、maven 项目、外部项目和多配置之间进
haskell - 管道:产生内存泄漏
在对上一个问题 (haskell-data-hashset-from-unordered-container-performance-for-large-sets) 进行一些观察时，我偶然发现了一个奇
命令参数的 Unix 管道
我正在寻找有关如何使用管道将标准输出作为其他命令的参数传递的见解。例如，考虑这种情况: ls | grep Hello grep 的结构遵循以下模式:grep SearchTerm PathOfFi
Jenkinsfile 管道，返回警告但不会失败
有没有办法不因声明性管道步骤而失败，而是显示警告？目前我正在通过添加 || exit 0 来规避它到 sh 命令行的末尾，所以它总是可以正常退出。当前示例: sh 'vendor/bin/phpcs
Jenkins 管道 - 手动清除工作区？
我们正在从旧的 Jenkins 设置迁移到所有计划都是声明性 jenkinsfile 管道的新服务器……但是，通过使用管道，我们无法再手动清除工作区。我如何设置 Jenkins 以允许手动点播清理工
python - 管道:多个分类器？
我在 Python 中阅读了有关 Pipelines 和 GridSearchCV 的以下示例: http://www.davidsbatista.net/blog/2017/04/01/docume
Jenkins 管道 - 无法在空对象上调用方法阶段()
我有一个这样的管道脚本: node('linux'){ stage('Setup'){ echo "Build Stage" } stage('Build'){ echo
Bitbucket 管道 - 无法从远程存储库中读取？
我正在使用 bitbucket 管道进行培训这是我的 bitbucket-pipelines.yml: image: php:7.2.9 pipelines: default:
haskell - 管道 - 管道内的多个输出文件
我正在编写一个程序，其中输入文件被拆分为多个文件(Shamir 的 secret 共享方案)。这是我想象的管道: 来源:使用 Conduit.Binary.sourceFile 从输入中读取导管:
Jenkins 管道 - 阶段与时间和输入
我创建了一个管道，它有一个应该只在开发分支上执行的阶段。该阶段还需要用户输入。即使我在不同的分支上，为什么它会卡在这些步骤的用户输入上？当我提供输入时，它们会被正确跳过。 stage('Deplo
R 管道 (%>%) 不适用于复制功能
我正在尝试学习管道功能(％>％)。当试图从这行代码转换到另一行时，它不起作用。 ---- R代码--原版----- set.seed(1014) replicate(6,sample(1:8))
Jenkins 管道，如何将工件从以前的构建复制到当前构建？
在 Jenkins Pipeline 中，如何将工件从以前的构建复制到当前构建？即使之前的构建失败，我也想这样做。最佳答案 Stuart Rowe 还在 Pipeline Authoring Si
Jenkins 管道 - 使用参数构建
我正在尝试使用执行已定义的作业构建使用 Jenkins 管道的方法。这是一个简单的例子: build('jenkins-test-project-build', param1 : 'some-
Powershell 管道，其表现不符合预期
当我使用 where 过滤器通过管道命令排除对象时，它没有给我正确的输出。 PS C:\Users\Administrator> $proall = Get-ADComputer -filter *

首页

博学

6Ren·AI

商城

hadoop - 当调用Apache Crunch管道在两个不同的源上读取两次时会发生什么？