gpt4 book ai didi

hadoop - 如何将PDF文件从HDFS索引到Solr

转载 作者:行者123 更新时间:2023-12-02 21:22:07 25 4
gpt4 key购买 nike

我是Apache Solr的新手
我的项目中有一个要求,我必须将HDFS的pdf文档上传到Solr,然后从那里开始使用Solr rest API。
我的本地文件系统中总共有40k pdf文档,首先我将它们推送到HDFS。但是从那里到Solr我真的不知道

另一件事是在索引到Solr时,我想从pdf文档中读取一些数据并将该数据也索引到Solr中。
示例:我想要Extraxt候选名称,pdf文档中的候选位置,并将其推送到看起来像的solr模式中,

name: "candidate_name"
location: "candidate_location"
document: "pdf_document"

我通过互联网搜索了此内容,但找不到正确的解决方案

最佳答案

尝试使用https://github.com/lucidworks/hadoop-solr

您应该尝试使用DirectoryIngestMapper,它具有Tika解析功能,但是您必须对其进行自定义。

关于hadoop - 如何将PDF文件从HDFS索引到Solr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36996223/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com