gpt4 book ai didi

hadoop - 使用Pig来加载Word文档(.doc和.docx)

转载 作者:行者123 更新时间:2023-12-02 20:09:18 28 4
gpt4 key购买 nike

我无法使用pig加载Microsoft Word文档(.doc或.docx)。确实,当我尝试这样做时,通过使用TextLoader(),PigStorage()或根本没有加载器,它不起作用。输出是一些奇怪的符号。

我听说我可以用JAVA编写自定义加载程序,但是这看起来确实很困难,而且我不了解目前如何编程其中的一个。

我想将所有.doc文件内容放在一个chararray包中,以便以后可以使用过滤器函数来处理它。

我该怎么办?

谢谢

最佳答案

他们是对的。由于.doc和.docx是二进制格式,因此简单的文本加载程序将无法工作。您可以编写UDF以能够将文件直接加载到Pig中,也可以进行一些预处理以将所有.doc和.docx文件转换为.txt文件,以便Pig可以替代地加载这些.txt文件。 This链接可以帮助您开始寻找转换文件的方法。

但是,我仍然建议学习编写UDF。预处理文件将增加可避免的大量开销。

更新:这是我过去用来编写Java(装入)UDF的一些资源。 OneTwo

关于hadoop - 使用Pig来加载Word文档(.doc和.docx),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18506535/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com