apache-pig - pig : Force UDF to occur in Reducer or set number of mappers-6ren

apache-pig - pig : Force UDF to occur in Reducer or set number of mappers

转载作者：行者123 更新时间：2023-12-01 12:46:09

26

4

我有一个运行非常耗时的 UDF 的 pig 脚本。 Pig 似乎将 UDF 设置为作为映射作业而不是化简作业运行。结果，创建了少量次优的映射器来运行该作业。我知道我可以使用 setDefaultParallel 设置在 pig 中使用的默认 reducer 数量以及使用 PARALELL x PigLatin 中的命令来设置给定行的 reducer 数量。但是我该怎么做才能设置映射器的数量？我看过关于通过定义我自己的 InputSplit 大小来增加映射器数量的帖子，但我想将映射器的数量明确设置为主机数 * 内核数，文件大小不应该与它有任何关系。

如果我无法控制映射器的数量，是否有任何方法可以强制我的 UDF 作为 reducer 出现，因为我可以控制它们？

最佳答案

不，您可以不是明确指定映射器的数量只是因为 Hadoop 不能那样工作。创建的映射器数量大约为 total input size/input split size ，但如果您有大量小文件(由于 HDFS 的工作方式，不鼓励这样做)，这可能会产生偏差。所以基本上，Pig 不允许你这样做，因为 Hadoop 根据定义没有那个选项。

不。无论如何，不是明确地使用 Pig。也因为“它不能那样工作”。 Pig 为您编译和优化内容，输出是 MR 作业流。当下一个版本的 Pig 出现时，任何将 UDF 强制转换为 reducer 的技巧都可以轻松更改。如果你觉得你真的需要 reducer 中的 UDF，你可以创建一个自定义的 MR 作业 jar，在其中实现一个直通映射器，然后在 reducer 中完成你的工作。你用 MAPREDUCE 从 pig 中调用它命令。但是，该解决方案听起来是错误的，并且您可能误解了某些内容。你可以看看是什么迫使 Pig 得到一个重要的想法——a DISTINCT , LIMIT和 ORDER将始终这样做，GROUP通常也会这样做。一个 JOIN通常会同时获得一个映射器和一个 reducer 。如您所见，强制 reduce 的操作是利用 Hadoop 的一些内在特性的操作(例如 ORDER 处于 reduce 中，因为 reducer 输入已排序)。没有简单的方法可以将 UDF 潜入其中，因为没有任何类型的 UDF(评估、过滤、加载、存储)可以轻松地与 reducer 一起使用。

关于apache-pig - pig : Force UDF to occur in Reducer or set number of mappers，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15735696/

26

4

0

文章推荐： knitr - 如何更改 pander 中的英文字幕？

文章推荐： java - 如何将内存中生成的类转储到文件

文章推荐： java - Spring验证注释不显示错误消息

文章推荐： r - 创建描述特定值的现有索引位置的新变量

search - lucene中BooleanClause.Occur.Must和BooleanClause.Occur.SHOULD的区别
谁能用一个例子来解释 BooleanQuery 中 lucene 中的 BooleanClause.Occur.Must 和 BooleanClause.Occur.SHOULD 之间的区别？最佳答
c++ - 插入多重集 : before the first occurence of that value instead of after the last occurence
正如标题所说，multiset 在所有相同值的范围末尾插入一个值。 (例如:在多重集 1,2,2,3 中插入 2 使其成为 1,2,2,/*new*/2,3)。如何在所有相同值范围的开头插入新值？
c++ - 插入 priority_queue : before the first occurence of that value instead of after the last occurence
所以这是与此(Inserting in a multiset: before the first occurence of that value instead of after the last o
c# - 聚合异常 "One or more errors occurred.An error occurred while sending the request."
我试图从我的 WCF .Net Framework 4.5 向 API rest 发布一个文件。这是我的代码: public string CreateConclusion(string[] inst
mysql - SQL : Count the number of occurrences occuring on output column and calculate some percentage based on the occurences
我的 SQL 查询获取固件的错误修复验证列表，例如def-456 是一张票，要求我对产品进行固件测试。 def-456 有几个记录结果的子任务。结果记录为:id:abc-123、abc-124、abc
linux - 文件操作: removing every occurence of a string execpt the first occurence after a certain different pattern
我想删除文件中多次出现的行，但想保留某些行。我该怎么做？这是我的文件的一部分，我想更改它: §M: 1, K: 2 name, time, cycle, instr, L1-mi
ssms - SQL 2016 实时查询统计错误 : "An error occurred while executing batch. Error message is: One or more errors occurred."
我正在 SSMS 中测试 SQL 2016 Live Query Stats，每次尝试时都会收到错误消息“执行批处理时出错。错误消息是:发生一个或多个错误。”并且不返回任何结果集。一位同事试过了，对他
tomcat - JBoss 缓存服务 : exception occurred in cache put error occurred after changing cache mode to REPL_SYNC
我们在 JBoss 4.2 上设置了一个水平集群。在我们将缓存模式从 REPL_ASYNC 更改为 REPL_SYNC 以解决问题之前， session 复制工作正常。我们开始看到一些 session
asp.net-mvc - "An exception occurred while processing your request. Additionally, another exception occurred while executing the custom error page..."
我正在尝试将 MVC 网站发布为 Azure 网络角色。当我在本地运行它时，一切正常。但是当我将其发布到 Azure 并浏览某些 MVC 操作时，我收到此错误: Server Error in '
linux - 未使用功能的链接器错误 : When do they occur?
假设一个静态库 libfoo 依赖于另一个静态库 libbar 的某些功能。这些和我的应用程序都是用 D 编写的。如果我的应用程序只直接使用 libfoo，并且只调用 libfoo 中的函数而不引用
eclipse - 在安装颠覆性连接器发现期间 - 'problems occurred'
我正在尝试在 Eclipse Helios 上安装 SVN 客户端，我已经从 Collaboration 节点安装了所有 SVN 模块(更新中)，现在重启后我可以选择一个连接器出现“颠覆性连接器
CakePHP错误: An internal error has occurred
我在 cakephp 中有一些代码会产生错误。这是 PHP Controller : $this->loadModel( 'Vote' ); //Newly added by amit start
Java : Occurances of a character in a String
我需要有关 Java 代码的帮助。这就是问题所在: 输入示例:AaaaaAa 输出:A 出现 7。问题是我需要它来忽略案例。请帮助我，我的代码工作正常，只是它不忽略大小写。 import jav
java - Java 中的死锁 : When they occur?
我正在为 J2ME 开发一个应用程序，有时它完全卡住并且 AMS 需要相当长的时间来关闭它.在我看来，这像是一个死锁问题。你能告诉我什么会导致死锁吗？例如，如果对象调用其自身的另一个同步方法，调用对
安卓dexguard : Multiple problems have occured?
尝试将 DEXguard 安装到 Eclipse 中的简单应用程序时出现以下错误: Errors occurred during the build. Errors running builder '
SAS 数据 : How to remove observations that only occur once
在 SAS 中，假设我有一个名为“person_groups”的数据集。它有两个变量，名为“person”和“group”。该数据集只是将每个人分配到一个组。我如何从这个数据集中删除所有在他们的组中
正则表达式 : replace the n-th occurence
有人知道如何在表达式中找到第 n 次出现的字符串以及如何用正则表达式替换它吗？例如我有以下字符串 txt sub("(^(.*?-){4}.*?)-(.*?-.*?)-", "\\1|\\3||"
emacs - emacs 中有多个 "Occur"结果缓冲区？
是否有一个包允许我为同一个缓冲区设置多个 Occur 结果缓冲区(例如 grep-a-lot: http://www.emacswiki.org/emacs/grep-a-lot.el )。我在分析
Powershell 错误处理 : do something if NO error occured
我一直在寻找这个，但似乎无法找到它。我有一个带有 try {} catch {} 语句的脚本。如果没有发生错误，我想添加一个操作。例如 try { something } catch { "Err
iphone - iPhone : Unknown Error Occurred
我正在从 iPhone 应用程序将照片上传到 Facebook。我已经让它工作了，只是有时它会返回“发生未知错误”。我不确定问题是什么。这种情况发生的概率约为 75%。其他人也遇到过这种情况吗？最

首页

博学

6Ren·AI

商城

apache-pig - pig : Force UDF to occur in Reducer or set number of mappers