gpt4 book ai didi

hadoop - 自定义Hadoop Mapper

转载 作者:行者123 更新时间:2023-12-02 21:53:24 28 4
gpt4 key购买 nike

我要开发的更大目标如下:

a)仪表板,除其他功能外,用户还可以上传文档(.pdf,.txt,.doc)。所有这些文档都转到特定目录。

b)用户还可以查询所有带有特定关键字标记的文档。

现在,我希望使用Hadoop进行文档标记,我的目标是通过使用所选单词的词典来实现此目的,现在.txt(或者也可能是.doc文件)将易于处理。但是,据我了解,不能直接处理.pdf文件。我已经学会了如何使用Apache PDFBox。但是我无法集成Hadoop和PDFBox这两个。我想做的是,我的Map-Reduce程序接收.txt / .pdf / .doc文件的语料库作为输入,并在Map开始运行之前执行pdf to txt的转换。

我该怎么办?我在想正确的方向吗?请帮忙。

最佳答案

我假设您有数百万或数十亿的文档,并且想要对其进行分类,无论是pdf, txt, doc and so on...,但是您的实际问题是如何在Apache PDFBox中使用Mapper,这是链接如何加载用户库hadoop:LINK

关于hadoop - 自定义Hadoop Mapper,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17642238/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com