xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce-6ren

xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

转载作者：可可西里更新时间：2023-11-01 14:16:35

28

4

我正在使用 Hadoop Map Reduce 对维基百科数据转储(以 bz2 格式压缩)进行研究。由于这些转储太大(5 T)，我无法将 xml 数据解压缩到 HDFS 中，只能使用 hadoop 提供的 StreamXmlRecordReader。 Hadoop 确实支持解压缩 bz2 文件，但它会任意拆分页面并将其发送给映射器。因为这是 xml，所以我们需要拆分为标签。有没有办法把hadoop自带的bz2解压和stream xml record reader一起使用？

最佳答案

维基媒体基金会刚刚为 Hadoop Streaming 接口(interface)发布了一个 InputReader，它能够读取 bz2 压缩的完整转储文件并将其发送到您的映射器。发送到映射器的单元不是整个页面，而是两个修订版(因此您实际上可以在两个修订版上运行 diff)。这是初始版本，我相信会有一些错误，但请试一试并帮助我们测试它。

此 InputReader 需要 Hadoop 0.21，因为 Hadoop 0.21 具有对 bz2 文件的流式支持。源代码位于:https://github.com/whym/wikihadoop

关于xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6726357/

28

4

0

文章推荐： hadoop - 如何控制 Hadoop 流作业的输出文件名和内容？

文章推荐： hadoop - Hadoop 分布式缓存的生命周期

文章推荐： java - 象夫 : To read a custom input file

c++ - 如何处理 .dump/.dump 文件？
我正在研究 MySQL 用户定义函数 (UDF)，它基本上是 Windows 系统函数的包装器。我的问题是 UDF 对于某些输入按预期工作，但会导致 mysqld 对于其他输入崩溃。 UDF 本身采用
python - python中的json.dump()和json.dumps()有什么区别？
我在 this 中搜索过官方文档查找python中 json.dump() 和 json.dumps() 之间的区别。很明显，它们与文件写入选项有关。但是它们之间的详细区别是什么？在什么情况下一个比
python json.dumps() json.dump()的区别详解
以前写的很简单，只有几句话，最近发现本文是本博客阅读量最大的一篇文章，觉得这样有种把人骗进来的感觉，于是又细化了一些。如果还有不好的地方，欢迎指出。首先说明基本功能： dumps是将dict转
Erlang:如何禁用 "crash dump"和 "core dump"生成？
有没有办法在运行 'erl' 时禁用“崩溃转储”和“核心转储”文件的生成？ PS:我知道 erl 的“+d”选项，但我想完全禁用崩溃/核心转储的生成。最佳答案您还可以将 ERL_CRASH_DUM
python - json.dumps(pickle.dumps(u'å')) 引发 UnicodeDecodeError
这是一个错误吗？ >>> import json >>> import cPickle >>> json.dumps(cPickle.dumps(u'å')) Traceback (most rece
python - pickle.dump/load 和 pickle.dumps/loads 有什么区别？
我已经开始了解用于对象序列化和反序列化的pickle模块了。我知道pickle.dump是用来将代码存储为字节流(序列化)，而pickle.load本质上是相反的，转成流字节返回到 python 对
python - json 编码器 json.dump 和 json.dumps 的不同结果
我有一个这种格式的字符串， d = {'details': {'hawk_branch': {'tandem': ['4210bnd72']}, 'uclif_branch': {'tandem':
Python，我想制作列表 json.dumped 但是，错误 'dict' 对象没有属性 'dumps'
下面是我的python代码 r = requests.get("https://www.googleapis.com/youtube/v3/search?part=snippet&maxResults
dump - 在通过 'pig -x local' 使用 grunt 时使用 DUMP 命令时如何抑制无用信息的膨胀？
我正在使用 PigLatin，使用 grunt，每次我“转储”东西时，我的控制台都会被诸如此类、诸如此类的非信息所破坏，有没有办法抑制这一切？ grunt> A = LOAD 'testingData
mongodb - 失败 : mongorestore target 'dump' invalid: stat dump: no such file or directory
我正在尝试将 mongodump 编辑的一组 .bson 文件 mongorestore 到位于 docker 中的 mongo 数据库，在我只有 SSH 访问权限的 Ubuntu 实例上。我有一个
python - json.dumps 值错误 : Extra data unable to dump json outputs
我正在尝试使用语音发送文本 watson api，但是当我设置 interim_results = True 时，我收到了值错误。请帮助我:) with open(join(dirname(__fil
redis - 将 Redis 数据库与 dump.rdb 或 dump.json 文件链接
鉴于 dump.rdb(或 .json 格式)文件中现有 redis 数据库的快照，我想在我自己的机器上恢复此数据以在其上运行一些测试。任何有关如何执行此操作的指示都将不胜感激。我尝试解析 dum
php - "php artisan dump-autoload"和 "composer dump-autoload"之间有什么区别？
我对 Laravel 4 和 Composer 还是很陌生。当我做 Laravel 4 教程时，我无法理解这两个命令之间的区别； php artisan dump-autoload 和 compose
python - 我应该在 Python 中使用 JSON.dumpS 和 .write() 函数还是 json.dump()
之间有区别吗 object = {1:"one", 2:"two", 3:"three"} file.write(json.dumps(object)) 和 json.dump(object) .如果
import - 甲骨文 : importing data pump dump without knowledge dump file content
导出/导入整个模式的旧方法: exp user/pwdp@server FILE=export.dmp OWNER=user ROWS=Y imp newuser/pwd@server FULL=
MongoDB 失败 : can't create ActualPath object from path dump: stat dump: no such file or directory
我有一堆需要恢复的 mongo 数据库。我使用 mongodump 获取备份目录，其中包括其中的集合。像这样: |- mydir |-- db1 |--- collection1 |--- colle
.net - dotnet-dump 在 Ubuntu 中失败，出现 "Writing dump failed (HRESULT: 0x80004005)"
尽管我在 root 下运行 dotnet-dump，并且进程在 root 下运行(请参阅下面的服务描述)，但似乎我缺乏一些权限。我还尝试了 home、var 和 tmp 中的其他目录:所有相同的消息
c++ - 使用 llvm::Function::dump()，链接器给出 "undefined reference to ` llvm::Value::dump() const'"
我正在尝试生成 LLVM IR 代码，作为 Kaleidoscope tutorial 的一部分我已成功完成在同一台机器上，使用这些相同的编译器标志。我的代码在 clang++ 3.4 中编译没有错
java - 如何在运行 java 时修复 "Failed to write core dump. Core dumps have been disabled"错误
我正在使用 eclipse 开发 Web 应用程序，当我尝试从 eclipse 中在服务器上运行我的应用程序时遇到了问题。 # # A fatal error has been detected by
python - `pickle.dump(d, f)` 等于 `f.write(pickle.dumps(d))` 吗？
给定一个任意的 picklable Python 数据结构data，是 with open('a', 'bw') as f: f.write(pickle.dumps(data)) 相当于 w

首页

博学

6Ren·AI

商城

xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce