gpt4 book ai didi

java - 使用 Apache Flink 处理 XML

转载 作者:行者123 更新时间:2023-12-01 09:20:10 25 4
gpt4 key购买 nike

我也是 Apache Flink 和分布式处理的新手。我已经阅读了 Flink 快速设置指南并了解了 MapFunctions 的基础知识。但我找不到 XML 处理的具体示例。我已阅读有关 Hadoops XmlInputFormat 的内容,但无法理解如何使用它。

我的需求是,我有一个巨大的(100MB)xml 文件,格式如下,

<Class>
<student>.....</student>
<student>.....</student>
.
.
.
<student>.....</student>
</Class>

flink 处理器将从 HDFS 读取文件并开始处理它(基本上迭代所有学生元素)

我想知道(通俗地说),如何处理 xml 并创建学生对象列表。

更简单的外行解释将不胜感激

最佳答案

Apache Mahout 的 XmlInputFormat Apache Hadoop 提取两个标签之间的文本(在您的情况下可能是 <student></student> )。 Flink 提供了使用 Hadoop 输入格式的包装器,例如通过 readHadoopFile()方法ExecutionEnvironment .

如果您不想使用XmlInputFormat如果您的 XML 文件格式良好,即每个学生记录都在一行中,您可以使用 Flink 的常规 TextInputFormat 逐行读取文件。随后的FlatMap函数可以解析所有学生行并过滤掉所有其他行。

关于java - 使用 Apache Flink 处理 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40215387/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com