gpt4 book ai didi

java - 使用 Nutch 检索页面内容

转载 作者:行者123 更新时间:2023-12-01 12:28:41 25 4
gpt4 key购买 nike

我有一个非常大的种子列表需要爬行(只需要那些种子而不需要任何加深)。如何使用 Nutch 检索:

  1. HTML
  2. 文本内容
  3. (最好)的外部链接

种子页面? (没有任何索引和集成到任何其他平台,如 Solr)。

谢谢

最佳答案

嗯,有很多问题需要解决。以下是他们的解决方案的问题:

  1. 限制抓取到种子列表:启用评分深度插件并将其配置为仅允许 1 级抓取。
  2. 获取文本内容:Nutch 默认执行此操作。
  3. 获取 HTML 原始数据:Nutch 1.9 无法实现。您需要从其主干存储库下载 Nutch 并构建它,因为 HTML 内容计划用于 Nutch 的下一个版本 (1.10)。
  4. 提取外链:您可以这样做,但必须编写一个新的索引过滤器来为外链建立索引。
  5. 在没有 Solr 的情况下完成上述所有操作:您可以做到。但是,您必须编写一个新的索引器,以您想要的任何格式存储提取的数据。

关于java - 使用 Nutch 检索页面内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26121329/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com