gpt4 book ai didi

hadoop - 将大型 XML 解析为 TSV

转载 作者:可可西里 更新时间:2023-11-01 16:34:37 27 4
gpt4 key购买 nike

我需要将少量 XML 解析为 TSV,XML 文件的大小约为 50 GB,我基本上怀疑我应该选择解析这个的实现方式,我有两个选项

  1. 使用 SAXParser
  2. 使用 Hadoop

我对 SAXParser 实现有一些了解,但我认为可以访问 Hadoop 集群,我应该使用 Hadoop,因为这就是 hadoop 的用途,即大数据

如果有人可以提供提示/文档,说明如何在 Hadoop 中执行此操作,或为如此大的文件提供高效的 SAXParser 实现,或者更确切地说,我应该为 Hadoop 或 SAXparser 做什么?

最佳答案

我经常在 Hadoop 中处理大型 XML 文件。我发现这是最好的方法(不是唯一的方法……另一种是编写 SAX 代码),因为您仍然可以以类似 dom 的方式对记录进行操作。

对于这些大文件,要记住的一件事是您绝对希望在映射器输出上启用压缩:Hadoop, how to compress mapper output but not the reducer output ...这会大大加快速度。

我已经简要概述了我是如何处理这一切的,也许它会有所帮助:http://davidvhill.com/article/processing-xml-with-hadoop-streaming .我使用 Python 和 Etrees,这让事情变得非常简单......

关于hadoop - 将大型 XML 解析为 TSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9426764/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com