gpt4 book ai didi

nutch - 如何重新爬行

转载 作者:行者123 更新时间:2023-12-04 05:19:08 26 4
gpt4 key购买 nike

我正在使用与 mysql 集成的 Nutch 2.1。我已经抓取了 2 个站点,Nutch 成功抓取了它们并将数据存储到 Mysql 中。我正在使用 Solr 4.0.0 进行搜索。

现在我的问题是,当我尝试重新抓取某个网站(如 trail.apple.com 或任何其他网站)时,它总是抓取上次抓取的网址。即使我已经从seeds.txt文件中删除了最后抓取的网址并输入了新的网址。但是 Nutch 不会抓取新的 Url。

谁能告诉我,我到底做错了什么。

还请向我推荐任何可以帮助抓取视频和电影网站的 Nutch 插件。

任何帮助将非常可观。

最佳答案

我有同样的问题。 Nutch 只重新抓取旧的 url,即使它们不存在于 seed.txt 中。

第一次启动 nutch 时,我执行以下操作:

  • 在/root/Desktop/apache-nutch 2.1/runtime/local/urls/seed.txt中添加域“www.domain01.com”(不带引号)
  • 在/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt 中,添加新行:

    # 接受其他任何东西
    ^http://([a-z0-9]*.)*www.domain01.com/sport/
  • 在/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt 中,添加新行:

    # 接受其他任何东西
    ^http://([a-z0-9]*.)*www.domain01.com/sport/

  • ......一切都很好。

    接下来我做了以下改动:
  • 从/root/Desktop/apache-nutch-2.1/runtime/local/urls/seed.txt 中删除 www.domain01.com 并添加两个新域:www.domain02.com 和 www.domain03.com
  • 从/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt 中删除 www.domain01.com 并添加两个新行:

    # 接受其他任何东西
    ^http://([a-z0-9]*.)www.domain02.com/sport/
    ^http://([a-z0-9].)*www.domain03.com/sport/
  • 从/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt 中删除 www.domain01.com 并添加两个新行:

    # 接受其他任何东西
    ^http://([a-z0-9]*.)www.domain02.com/sport/
    ^http://([a-z0-9].)*www.domain03.com/sport/

  • 接下来我执行以下命令:
    updatedb
    bin/nutch inject urls
    bin/nutch generate urls
    bin/nutch updatedb
    bin/nutch crawl urls -depth 3

    和 nutch 仍然爬行 www.domain01.com

    我不知道为什么?

    我在 Linux Debian 6.0.5 (x64) 上使用 Nutch 2.1。并且 linux 在 Windows 7 (x64) 上的虚拟机上启动。

    关于nutch - 如何重新爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13873694/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com