azure - 运行 HDInsight 作业指南-6ren

azure - 运行 HDInsight 作业指南

转载作者：可可西里更新时间：2023-11-01 15:17:08

26

4

有关 HDInsight 作业方法的几个问题。

1) 如何安排 HDInsight 作业？有现成的解决方案吗？例如，如果我的系统将不断收集大量新的输入文件，我们需要在这些文件上运行映射/归约作业，那么建议的方法是什么来实现持续处理？

2) 从价格角度考虑，建议在没有作业运行时删除 HDInsight 群集。据我了解，如果我们决定每天运行该作业，就没有办法自动化这个过程吗？这里有什么建议吗？

3) 有没有办法确保相同的文件不会被处理多次？您如何解决这个问题？

4)我可能错了，但看起来每个 hdinsight 作业都需要一个新的输出存储文件夹来存储 reducer 结果。合并这些结果以使报告始终适用于整个数据集的最佳实践是什么？

最佳答案

好吧，里面有很多问题!我希望能得到一些快速答案。

HDInsight 中并没有真正安排作业提交的方法，但您当然可以安排一个程序来为您运行作业提交。根据您的工作流程，Oozie 可能值得一看，它在 HDInsight 上运行可能有点尴尬，但应该会有所帮助。
在价格方面，我建议如果您不使用集群，则应销毁它并在需要时将其重新带回来(这些计算时间确实会增加!)。请注意，这将丢失 HDFS 中的所有内容，这些内容主要是中间结果，asv 存储中保存的任何输出或输入数据都将保留在 Azure 存储帐户中。您当然可以使用 CLI 工具或 CLI 工具使用的其余界面来自动执行此操作。 (请参阅我对 Hadoop on Azure Create New Cluster 的回答，第一个已过时)。
我会通过确保每个文件只提交一次作业来做到这一点，并依靠 Hadoop 来处理重试和可靠性方面，因此无需管理应用程序中的任何重试。
一旦获得初始流程的输出，如果您想将它们减少为单个输出以进行报告，最佳选择可能是使用输出作为输入的辅助 MapReduce 作业。
如果您不关心各个中间作业，则可以通过作业链将它们直接链接到一个 MapReduce 作业(可以包含任意数量的映射和化简步骤)，请参阅 Chaining multiple MapReduce jobs in Hadoop一个基于java的例子。遗憾的是，.NET API 目前不支持这种形式的作业链。
但是，如果您的情况允许使用Reducer->Combiner 方法，您也许可以只使用ReducerCombinerBase 类。

关于azure - 运行 HDInsight 作业指南，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18515850/

26

4

0

文章推荐： node.js - 跑 pig 脚本

文章推荐： debugging - 将特定页面上的所有 http 请求导出到 txt/csv

文章推荐： java - PIG - 我可以将 byteArray 转换为元组吗

文章推荐： logging - 合并 MapReduce 日志

NSIS 指南
我想让我的 NSIS 代码更具可读性。我需要一些关于明智地编写代码部分的指南(比如 C# 中有 #region #endregion)或任何可以使编写 NSIS 代码变得有趣和容易的信息. 请帮帮我
cucumber - 在哪里可以找到Gherkin语言规范/指南？
我正在尝试找出Gherkin中所有可用的语法/格式，例如关于多行参数以及我不知道的所有其他内容。在挖掘Google搜索结果之后，似乎综合指南位于here中: 我以为那很好，并且it链接到一个页面，该
初学者的 EGL 指南
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 5年前关闭。 Improve thi
javascript - Amcharts 指南
当我将 guides 添加到 valueAxesSettings 中时，即使我选择 valueAxesSettings 到 valueAxes 中，它也不起作用。此外，valueAxesSetting
.net - 维护程序集版本号的最佳实践/指南
我正在寻找有关如何管理 .NET 程序集的三个不同程序集版本号的指针、建议，甚至是口述。 Product 版本是最简单的，因为这似乎通常由业务决定。然后，文件版本似乎用于部署之间的版本控制，其中实际的
c# - 关于不同的编码风格/指南
昨晚我脑子里冒出一件事。我想知道为什么我们在项目之间仍然有不同的编码风格。由于风格是个人的东西，我认为最好这样对待它。我们为什么不呢？这有什么技术限制吗？我举几个例子: // Code sample
Android 后退按钮覆盖礼仪/指南
我有一个应用程序，用户可以在其中从主 Activity 登录，然后可以使用 ListView 浏览实体的层次结构。因此，Activity 堆栈看起来像这样: A -> B -> B -> B -> .
python - 缩写几个功能 - 指南？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
提高技能的 CSS 指南
大家好，上个月我开始学习 CSS。我做的第一件事是阅读我能在 www.w3school.com 上找到的所有内容，之后我开始阅读 CSS Mastery 2nd版本。我已经建立了几个自己的网站并取得了
c# - 上传用户个人资料照片 - 指南
我希望用户能够上传个人资料图片。关于如何最好地处理这个问题，是否有任何指导方针？例如 - 在哪里保存图像？和要使用的文件夹结构。- 让用户难以浏览每个人的个人资料照片？谢谢。最佳答案如果你自己
lisp - 是否有实现条件重启系统的书籍/指南
我有兴趣了解有关条件重启系统及其工作原理的更多信息。我不知道从哪里开始。我一直在查看源代码，但想知道是否有更高级别的指南可用。最佳答案 Kent Pitman:条件系统 http://www.nhp
Android - JNI 指南
我想将小型、精简且平均的基于 C 的解析器合并到我的 Android 项目中。我过去做过 JNI 编程，但没有在 Android 上进行任何类型的 native (C) 开发。我的计划是将 C lib
c++ - 指南 : while vs for
免责声明:我试图搜索类似的问题，但是它返回了关于每个 C++ 问题的信息...此外，我将感谢任何可以提出更好标题的人。 C++ 中有两个著名的循环结构:while 和for。我故意忽略了 do ..
mysql - REGEXP_REPLACE 指南
我一直在尝试批量删除 Wordpress 帖子中的垃圾链接，如下所示: . 它们位于 post_content 列下的 wp_posts 表中。我试图通过在 href 标记中添加 % 的通配符来做到这
Android - 指南 - 带有在线数据库的应用程序
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 6 年前。 Improve
c# - 指南 - 扩展方法与部分类
我们正在讨论为实体类定义方法的最佳方式 - 作为扩展方法或使用分部类。我们讨论的这类方法不会修改实体的状态，它们是纯粹的“辅助”方法，可以查询状态并返回值。这两种方法的主要好处是保持实体类干净，同时
flutter - 指南/演练层实现
您将如何在 Flutter 中在实际屏幕上实现引导层。像这样: 最佳答案这不是微不足道的。以下是必需的组件: 首先，你必须open a transparent full screen dialog
c++ - 浮点优化 - 指南
我们需要通过在 C/C++ 中实现特定算法来解决的大多数科学计算问题都需要远低于 double 的精度。例如，1e-6、1e-7 精度涵盖了 ODE 求解器或数值积分的 99% 情况。即使在我们确实需
localization - 从右到左的 UI 指南？
我正在研究对专有 UI 框架(用于桌面应用程序)的 RTL 支持，我想知道:是否有关于如何更改小部件渲染的指南？我正在寻找以下内容的列表: 复选框标签位于复选框左侧，右对齐工具栏按钮从右到左排列
java - 需要适当的 SCJP 指南
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he

首页

博学

6Ren·AI

商城

azure - 运行 HDInsight 作业指南