gpt4 book ai didi

pdf - 使用 nutch 抓取 PDF 文档

转载 作者:行者123 更新时间:2023-12-04 19:45:11 26 4
gpt4 key购买 nike

我也必须从给定的 URL 抓取 PDF 文档...建议使用任何工具/API 来抓取 PDF 文档...现在我正在使用 nutch 进行抓取,但我无法从给定的 URL 抓取 PDF...我应该使用任何插件来抓取 PDF 吗?

种子.txt --> http://nutch.apache.orgregex-urlfilter.txt--->+^http://([a-z0-9]*.)*nutch.apache.org/

提前致谢

最佳答案

  1. 编辑 regex-urlfilter.txt 并删除所有出现的“pdf”
  2. 编辑suffix-urlfilter.txt 并删除所有出现的“pdf”
  3. 编辑nutch-site.xml,在文件中添加“parse-tika”和“parse-html”plugin.includes 部分。这应该是这样的

这个答案来自here .我在 Nutch 上工作时测试过它

<property>


<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika|text)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>
...
</description>
</property>

关于pdf - 使用 nutch 抓取 PDF 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18054889/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com