gpt4 book ai didi

xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

转载 作者:可可西里 更新时间:2023-11-01 14:16:35 28 4
gpt4 key购买 nike

我正在使用 Hadoop Map Reduce 对维基百科数据转储(以 bz2 格式压缩)进行研究。由于这些转储太大(5 T),我无法将 xml 数据解压缩到 HDFS 中,只能使用 hadoop 提供的 StreamXmlRecordReader。 Hadoop 确实支持解压缩 bz2 文件,但它会任意拆分页面并将其发送给映射器。因为这是 xml,所以我们需要拆分为标签。有没有办法把hadoop自带的bz2解压和stream xml record reader一起使用?

最佳答案

维基媒体基金会刚刚为 Hadoop Streaming 接口(interface)发布了一个 InputReader,它能够读取 bz2 压缩的完整转储文件并将其发送到您的映射器。发送到映射器的单元不是整个页面,而是两个修订版(因此您实际上可以在两个修订版上运行 diff)。这是初始版本,我相信会有一些错误,但请试一试并帮助我们测试它。

此 InputReader 需要 Hadoop 0.21,因为 Hadoop 0.21 具有对 bz2 文件的流式支持。源代码位于:https://github.com/whym/wikihadoop

关于xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6726357/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com