作者热门文章
- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我想用hadoop读取PDF文件,怎么可能?我只知道hadoop只能处理txt文件,所以有没有把pdf文件解析成txt的。
给我一些建议。
最佳答案
一个简单的方法是创建一个 SequenceFile包含 PDF 文件。 SequenceFile 是一种二进制文件格式。您可以将 SequenceFile 中的每条记录都制作成 PDF。为此,您将创建一个派生自 Writable 的类。其中将包含 PDF 和您需要的任何元数据。然后您可以使用任何 Java PDF 库,例如 PDFBox操作 PDF。
关于hadoop - 如何在 Hadoop 中访问和操作 pdf 文件的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9290119/
我是一名优秀的程序员,十分优秀!