gpt4 book ai didi

search-engine - 如何使用 Apache Nutch 保存原始 html 文件

转载 作者:行者123 更新时间:2023-12-04 16:27:47 26 4
gpt4 key购买 nike

我是搜索引擎和网络爬虫的新手。现在我想将特定网站中的所有原始页面存储为 html 文件,但使用 Apache Nutch 我只能获取二进制数据库文件。如何使用 Nutch 获取原始 html 文件?

Nutch 支持吗?如果没有,我可以使用其他什么工具来实现我的目标。(支持分布式爬虫的工具更好。)

最佳答案

好吧,nutch 会以二进制形式写入抓取的数据,因此如果您希望将其保存为 html 格式,则必须修改代码。 (如果您不熟悉 nutch,这会很痛苦)。

如果您想要获取 html 页面的快速简便的解决方案:

  • 如果您打算拥有的页面/网址列表非常少,那么最好使用调用 wget 的脚本来完成它。对于每个网址。
  • 或使用 HTTrack工具。

  • 编辑:

    编写一个你自己的 nutch 插件会很棒。您的问题将得到解决,而且您可以通过提交您的作品为 nutch 做出贡献!!!如果您不熟悉 nutch(在代码和设计方面),那么您将不得不投入大量时间构建一个新插件……否则很容易做到。

    一些帮助您主动的提示:

    Here是一个讨论编写自己的 nutch 插件的页面。

    Fetcher.java 开始.见第 647-648 行。这是您可以在每个 url 的基础上获取获取内容的地方(对于那些成功获取的页面)。
    pstatus = output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);
    updateStatus(content.getContent().length);

    您应该在此之后立即添加代码以调用您的插件。通行证 content反对它。到现在为止,您可能已经猜到 content.getContent()是您想要的 url 内容。在插件代码中,将其写入某个文件。文件名应基于 url 名称,否则将很难使用。网址可以通过 fit.url获取.

    关于search-engine - 如何使用 Apache Nutch 保存原始 html 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10007178/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com