nutch - 如何重新爬行-6ren

nutch - 如何重新爬行

转载作者：行者123 更新时间：2023-12-04 05:19:08

26

4

我正在使用与 mysql 集成的 Nutch 2.1。我已经抓取了 2 个站点，Nutch 成功抓取了它们并将数据存储到 Mysql 中。我正在使用 Solr 4.0.0 进行搜索。

现在我的问题是，当我尝试重新抓取某个网站(如 trail.apple.com 或任何其他网站)时，它总是抓取上次抓取的网址。即使我已经从seeds.txt文件中删除了最后抓取的网址并输入了新的网址。但是 Nutch 不会抓取新的 Url。

谁能告诉我，我到底做错了什么。

还请向我推荐任何可以帮助抓取视频和电影网站的 Nutch 插件。

任何帮助将非常可观。

最佳答案

我有同样的问题。 Nutch 只重新抓取旧的 url，即使它们不存在于 seed.txt 中。

第一次启动 nutch 时，我执行以下操作:

在/root/Desktop/apache-nutch 2.1/runtime/local/urls/seed.txt中添加域“www.domain01.com”(不带引号)

在/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt 中，添加新行:

# 接受其他任何东西
^http://([a-z0-9]*.)*www.domain01.com/sport/

在/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt 中，添加新行:

# 接受其他任何东西
^http://([a-z0-9]*.)*www.domain01.com/sport/

......一切都很好。

接下来我做了以下改动:

从/root/Desktop/apache-nutch-2.1/runtime/local/urls/seed.txt 中删除 www.domain01.com 并添加两个新域:www.domain02.com 和 www.domain03.com

从/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txt 中删除 www.domain01.com 并添加两个新行:

# 接受其他任何东西
^http://([a-z0-9]*.)www.domain02.com/sport/
^http://([a-z0-9].)*www.domain03.com/sport/

从/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txt 中删除 www.domain01.com 并添加两个新行:

# 接受其他任何东西
^http://([a-z0-9]*.)www.domain02.com/sport/
^http://([a-z0-9].)*www.domain03.com/sport/

接下来我执行以下命令:

updatedb
bin/nutch inject urls
bin/nutch generate urls
bin/nutch updatedb
bin/nutch crawl urls -depth 3

和 nutch 仍然爬行 www.domain01.com

我不知道为什么？

我在 Linux Debian 6.0.5 (x64) 上使用 Nutch 2.1。并且 linux 在 Windows 7 (x64) 上的虚拟机上启动。

关于nutch - 如何重新爬行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13873694/

26

4

0

文章推荐： libpng - 为什么将 RGBA 图像转换为 RGB 时会留下 Blob ？

文章推荐： ruby-on-rails - 轮询新 S3 对象的最佳方法？

文章推荐： java - 了解 Hibernate 版本历史及其模块之间的兼容性

vba - 爬行 ActiveX 按钮
再会! 我有一个 ActiveX 按钮(根据从顶部开始的行数锚定在位置上)，它运行 VBA 代码以在特定点插入指定数量的复制行。代码本身工作正常，但按钮“克隆”自身并将自身覆盖在新行的位置，即使我设置
hadoop - 无法启动 Nutch 爬行
我正在尝试在 Ubuntu 14.04 上部署 Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94 以下 tutorial .当我尝试开始爬行注入(inject)网址
vba - 爬行 Zip 文件
我正在尝试爬行某个驱动器并从埋藏在子目录中的某些 .xls 文件中获取数据。该驱动器超过 1 TB，并且文件夹并不都具有相同的层次结构，因此我正在遍历所有文件夹。到目前为止，该脚本运行良好。问题是，
c# - 在 c++/c# 中从哪里开始抓取/爬行？
首先，我希望抓取是从桌面 .exe 向网站发送请求并获取数据的正确词。如果是，我应该使用什么库或插件？我是否应该使用另一种语言来执行此操作(如 Java 或其他语言？)。我需要一些“提示”，因为我真的
python - 如何通过命令生成 url 让 scrapy 爬行
这是我的代码: def parse(self, response): selector = Selector(response) sites = selector.xpath("//
node.js - 使用 Node.js 爬行
完整的 Node.js 菜鸟，所以不要评判我...... 我有一个简单的要求。爬取网站，查找所有产品页面，并保存产品页面中的一些数据。说的更简单，做的更简单。查看 Node.js 示例，我找不到类
scrapy - 广泛的 Scrapy 爬行 : sgmlLinkextractor rule does not work
我花了很多时间玩弄和使用谷歌，但我无法解决我的问题。我是 Scrapy 的新手，希望你能帮助我。部分有效的爬虫:我从 MySQL 数据库中定义我的 start_requests url。使用“par
Ajax 爬行 : old way vs new way (#! )
老方法当我以前在需要内容被搜索引擎索引的项目中异步加载页面时，我使用了一种非常简单的技术，那就是 Page $('#example').click(function(){
json - 爬行 : Difference between "query string parameter" and "request payload"
我正在尝试使用 Scrapy 抓取 ajax 站点，网址是 http://www.target.com/p/bounty-select-a-size-white-paper-towels-12-meg
java - 无法让 apache nutch 爬行 - 权限和 JAVA_HOME 可疑
我正在尝试按照 NutchTutorial 运行基本爬网: bin/nutch crawl urls -dir crawl -depth 3 -topN 5 所以我已经安装了 Nutch，并使用 So
python - 从 Python 库的角度来看，爬行、解析、索引、搜索之间有什么区别
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
javascript - 使用 GAS : Error - Argument too large:value 进行巨大的网站抓取/爬行
我做了一个抓取脚本，通过爬行逐一抓取任何网站(要输入的url)的内部页面，获取其他内部url并处理它们以获取所有页面并提取其纯文本(剥离的html)。请参阅my previous回答。该脚本运行良好，
java - 使用 selenium : How to keep logged in after close Driver in java 爬行
无论如何，驱动程序是否可以记住登录 session ，所以它不会带我回到登录页面(例如google-chrome)? 这就是我现在正在做的事情 public static void main(Stri
node.js - NodeJS 使用 node-crawler 或 simplecrawler 进行 Web 爬行
我是网络爬虫新手，我需要一些关于这两个 Node JS 爬虫的指导。目标:我的目标是抓取网站并仅获取该域内的内部(本地)URL。我对任何页面数据或抓取不感兴趣。只是 URL。我的困惑:使用 nod

首页

博学

6Ren·AI

商城

nutch - 如何重新爬行