gpt4 book ai didi

xml - Mahout 的 XmlInputFormat 是否可以在不重写的情况下处理 gzip 压缩文件?

转载 作者:可可西里 更新时间:2023-11-01 16:38:29 26 4
gpt4 key购买 nike

Mahout 的 XmlInputFormat 能否在不覆盖其任何方法的情况下处理 gzip 压缩数据?我一直在尝试解析经过 gzip 压缩的维基百科 xml 数据,但到目前为止都没有成功。

我听说 Hadoop 能够自动处理 gzip 文件,但我现在假设它包含在 TextInputFormat 类中或特定于其他输入格式,并且没有内置到 Mahout 的输入格式中。但也许我错过了什么。

注意:从那以后我就能够解析 xml,但我一直没能找到明确的答案,我很惊讶我这么难找到答案。希望更聪明的人可以启发我和其他人。

最佳答案

根据这个{code}没有处理编解码器,没有覆盖我认为这是不可能的。

Incase of LineRecordReader 它看起来像这样 {code}并且基于文件扩展名,它确实应用了编解码器。

您仍然可以尝试使用 cloud9 的 WikipediaPageInputFormat {here}

他们有这个 {codec}已处理,请检查它是否适合您。

关于xml - Mahout 的 XmlInputFormat 是否可以在不重写的情况下处理 gzip 压缩文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46762862/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com