gpt4 book ai didi

hadoop - 将行转换为 pig 中的列

转载 作者:行者123 更新时间:2023-12-02 21:24:07 24 4
gpt4 key购买 nike

我正在使用Wikipedia数据集执行mapreduce。数据集正在使用here中的is(Wikipedia Wiki命名空间)。 bz2文件中的数据是这样的

REVISION 724 234015 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2001-03-28T22:33:49Z ip:Larry_Sanger ip:Larry_Sanger
CATEGORY
IMAGE
MAIN Larry_Sanger LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia
TALK
USER
USER_TALK
OTHER
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml
TEMPLATE
COMMENT *
MINOR 0
TEXTDATA 685

REVISION 724 431753 Wikipedia:Adding_Wikipedia_articles_to_Nupedia 2002-05-19T17:36:09Z Eclecticology 372
CATEGORY
IMAGE
MAIN Larry_Sanger LMS LMS Adding_Nupedia_articles_to_Wikipedia Jimbo_Wales Nupedia Wikipedia Mores Adding_Wikipedia_articles_to_Nupedia/Help
TALK
USER
USER_TALK
OTHER
EXTERNAL http://www.nupedia.com/write.shtml http://www.nupedia.com/policy.shtml http://chalkboard.nupedia.com http://www.nupedia.com/newsystem/signup.phtml http://www.nupedia.com/newsystem/writearticle.phtml?instr=on http://www.nupedia.com/editors.phtml
TEMPLATE
COMMENT "mores" linked; -/Talk
MINOR 1
TEXTDATA 738

基本上,我想将每个修订版本转换为一行,以便将包含所有其他详细信息的一组修订版本放在一行中。我尝试遵循类似于 this的方法,但不起作用。有人可以指导我如何去做吗?

最佳答案

预处理数据的最简单(可能不是最优雅)的方法。根据您的链接,我们谈论的是18GB可行的。
而且无论如何,您都必须将数据与模式分开(似乎数据也包含文件名)。

为这种类型的数据编写自己的加载器的更好的解决方案。
在这里,您将找到一些示例项目和一个教程http://help.mortardata.com/technologies/pig/write_your_own

关于hadoop - 将行转换为 pig 中的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36578256/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com