apache-flink - Flink 批处理 : data local planning on HDFS?-6ren

apache-flink - Flink 批处理 : data local planning on HDFS?

转载作者：行者123 更新时间：2023-12-04 04:54:17

26

4

我们一直在玩 Flink。到目前为止，我们一直在 Hadoop 2.x/YARN 上使用 Spark 和标准 M/R。

除了 YARN 上的 Flink 执行模型之外，AFAIK 不像 spark 那样动态，执行器在 YARN 中动态获取和释放虚拟核心，问题的要点如下。

Flink 看起来很神奇:用于流式 API ，我只会说它很棒而且很出色。

批处理 API:处理图非常强大，并且以独特的方式进行了优化和并行运行，比 Spark 和其他人更能利用集群可扩展性，优化了共享通用处理步骤的非常复杂的 DAG。

我发现的唯一缺点，我希望这只是我的误解和缺乏知识，是在规划使用 HDFS 上的输入的批处理作业时，它似乎不喜欢数据本地处理。

不幸的是，这不是一个小问题，因为在 90% 的用例中，您在 HDFS 上有一个大数据分区存储，通常您会执行以下操作:

读取和过滤(例如，只获取失败或成功)

聚合，减少，使用它

第一部分，当在简单的 M/R 或 spark 中完成时，总是使用 ' 的习语来计划。首选本地处理 '，因此数据由保存数据 block 的同一节点处理，速度更快，以避免通过网络传输数据。

在我们使用 3 个节点的集群进行的测试中，设置专门测试此功能和行为，Flink 似乎可以完美地处理 HDFS block ，例如如果文件由 3 个 block 组成，那么 Flink 可以完美地处理 3 个输入拆分并并行调度它们。
但是没有数据局部性模式。

请分享您的意见，我希望我只是错过了一些东西，或者它可能已经出现在新版本中。
提前感谢任何花时间回答这个问题的人。

最佳答案

Flink 使用与 Hadoop 和 Spark 不同的本地输入拆分处理方法。 Hadoop 为每个输入拆分创建一个 Map 任务，该任务最好调度到托管拆分引用的数据的节点。

相比之下，Flink 使用固定数量的数据源任务，即数据源任务的数量取决于算子配置的并行度，而不是输入拆分的数量。这些数据源任务在集群中的某个节点上启动，并开始从主节点(JobManager)请求输入拆分。在 HDFS 中文件的输入拆分的情况下，JobManager 分配具有位置首选项的输入拆分。所以有来自 HDFS 的本地感知读取。但是，如果并行任务的数量远低于 HDFS 节点的数量，则将远程读取许多拆分，因为源任务保留在启动它们的节点上，并且一个接一个地获取一个拆分(首先是本地任务，以后有远程的)。如果您的拆分非常小，也可能发生竞争条件，因为第一个数据源任务可能会在其他源任务执行第一个请求之前快速请求并处理所有拆分。

IIRC，本地和远程输入拆分分配的数量被写入 JobManager 日志文件，也可能显示在 Web 仪表板中。这可能有助于进一步调试问题。如果您发现问题似乎与我上面解释的不匹配，如果您可以通过用户邮件列表与 Flink 社区联系以找出问题所在，那就太好了。

关于apache-flink - Flink 批处理 : data local planning on HDFS?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38672091/

26

4

0

文章推荐： apache-spark - 为什么Spark不使用本地计算机上的所有内核

文章推荐： .net - <% : and what is the difference to <%=? 中的 ":"是什么意思

文章推荐： spring-batch - pageSize 和 commit-interval 之间的 Spring Batch 差异

文章推荐： linux-kernel - find_dynamic_major 函数

c++ - 当 "local"、 "global"和 "local"变量存在同名时如何访问 "very local"变量
int i = 1; int main() { int i = 2; { int i = 3; cout 值为 3)。您能做的最好的事情就是在它仍在范
localization - Angularjs 和 $locale
我可以手动为某些应用程序设置 $locale 吗？支持本地化的唯一方法是否可能是包含当前语言环境的 Angular 库中的本地化文件。如果存在多种文化怎么办？在这种情况下我必须动态加载本地化文件？我
local - CUPS @LOCAL 值
我有两台机器。一个使用 CUPS 1.5.0，另一个使用 CUPS 1.6.1。两台机器位于同一本地网络上。我想要完全发现网络上的打印机。如果我运行以下命令: CUPS_DEBUG_LEVEL=2 /
local - 使用连接池时关闭 "local"OrientDB
所以我基本上是这样做的。 OObjectDatabaseTx result = OObjectDatabasePool.global().acquire( "local:orientdb", "adm
javascript - ““Meteor - tsega/meteor-bootstrap3-datetimepicker 类型错误 : locale() locale it is not loaded from moment locales! “
控制台日志重新显示此错误 tsega/meteor-bootstrap3-datetimepicker TypeError: locale() locale it is not loaded from
javascript - express 4。 app.locals、res.locals 和 req.app.locals 之间有什么区别？
我在使用 express 4 时很困惑。我使用 express-generator 来生成我的项目。根目录下有app.js，路由器文件有index.js。但是网上关于express的教程都是直接在
android - SimpleDateFormat(String template, Locale locale)，例如 Locale.US 用于 ASCII 日期
问题:直接使用 SimpleDateFormat，无需明确的语言环境Id:SimpleDateFormat SimpleDateFormat format = new SimpleDateFormat
python - 为什么 locale.strxfrm ("Gè") locale.strxfrm ("Gène")) 的前缀不是 locale "fr_FR.UTF-8"？
这里的代码在 Python 中，但在使用语言环境的 C/C++ 中的行为应该是相同的。 >>> import locale >>> locale.setlocale(locale.LC_ALL, "f
localization - app-localize-behavior 和共享本地化缓存
根据 app-localize-behavior 的 polymer 文档 Each element that displays content to be localized should add
localization - 将小部件移动到另一个文件后，Flutter Localization 功能不起作用？
起初我从 this tutorial 实现 l10n到 Flutter 的模板项目文件，这是成功的。之后，我尝试将 MyHomePage 类移动到名为 home.dart 的新文件中。它停止工作是因为
ERROR: could not load library "/usr/local/pgsql-13/lib/age.so": /usr/local/pgsql-13/lib/age.so: undefined symbol: hash_any_extended(错误：无法加载库“/usr/local/pgsql-13/lib/age.so”：/usr/local/pgsql-13/lib/age.so：未定义符号：HASH_ANY_EXTENDED)
我正在使用源代码中的Postgres 13(Rel_13_STRATE分支)，并且我使用的是来自apachea/age源代码的(Release/PG13/1.3.0分支)中的1.3.0版的Apache
angular - 部署/运行: local Express web-server and local client-side angular app that sends ajax requests to this local web-server
我有: 基于节点Express的Web服务器，应仅在用户的本地计算机上运行一个 Angular 客户端应用程序，它将GET Http请求发送到该本地Web服务器以获取JSON中的数据并将其显示在浏览
node.js - Express 中间件中的 req.locals vs. res.locals vs. res.data vs. req.data vs. app.locals
问了一些类似的问题，但我的问题是，如果我想传播不同路由中间件的中间结果，最好的方法是什么？ app.use(f1); app.use(f2); app.use(f3); function f1(req
javascript - 从服务器发送的 locals AND locals._locals (克隆)
我注意到我的本地变量中有从服务器收到的本地变量的副本。例如 Object { settings: "4.2", env: "development", utils: true,
networking - 如何在Powershell中检索Vista的网络状态(例如 “Local Only”， “Local and Internet”)
我的网卡不稳定，尤其是从休眠状态恢复后，有时会掉线。退出对应于Vista的网络状态，在通知区域中显示为“仅限本地”。是否可以通过编程方式检索这些状态值(例如“有限连接”，“仅本地”，“本地和Inter
中间人 - 我如何访问 Locale/Localization/lang 变量
你好想知道在模板中是否有一种简单的方法来访问当前翻译的 lang 字符串。最佳答案您可以使用 I18n.locale 访问它. 所以在 ERB 中...... ...在 HAML 中: = I1
Python:pickling locals()，或者 locals 有一个更轻量级的表兄弟吗？
我在 Django 中工作。在 Django 中，当您渲染模板时，您向其发送一个上下文字典以进行替换。因为我很懒/干，所以我经常使用 locals() 作为快捷方式，而不是发送看起来像 {'my_va
java Locale.Builder setExtension(Locale.UNICODE_LOCALE_EXTENSION
我一直在尝试让 Java 根据语言环境转换数字。偶遇this post这在很大程度上帮助了我预先理解这一点，我设计了自己的方法将数字转换为特定的语言环境(根据关于这个主题的其他混淆讨论) 所以假设我有
hadoop - Rack-local map任务和Data-local map任务有什么区别？
当我运行“hadoop job -status xxx”时，输出以下一些列表。 Rack-local map tasks=124 Data-local map tasks=6 Rack-local m
localization - 网站语言 : use browser locale or IP address
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 3个月前关闭。 Improve

首页

博学

6Ren·AI

商城

apache-flink - Flink 批处理 : data local planning on HDFS?