gpt4 book ai didi

hadoop - hadoop 1.2.1 上的 nutch 1.9 中缺少 org.apache.nutch.crawl.Crawl

转载 作者:可可西里 更新时间:2023-11-01 14:38:20 26 4
gpt4 key购买 nike

我已经安装了完全分布式的 Hadoop 1.2.1。我试图通过以下步骤集成 nutch:

  1. 下载apache-nutch-1.9-src.zip
  2. 在nutch-site.xml中添加值http.agent.name
  3. 复制hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site。 xml,masters, slaves 进入 $NUTCH_HOME/conf
  4. 使用 ant runtime 编译
  5. 创建urls/seed.txt并安装hadoop dfs
  6. 编辑 $NUTCH_HOME/conf/regex-urlfilter.txt

使用命令测试抓取:

bin/hadoop -jar nutch-1.9.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

并得到这个错误:

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:354) at java.lang.ClassLoader.loadClass(ClassLoader.java:425) at java.lang.ClassLoader.loadClass(ClassLoader.java:358) at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:270) at org.apache.hadoop.util.RunJar.main(RunJar.java:153)

我尝试提取 nutch-1.9.job,但我没有在 org/apache/nutch/crawl 中找到类 Crawl。

我需要配置什么吗?

最佳答案

Crawl.java 在 1.8 版本中被移除。您可以使用 crawl shell 脚本进行所有爬取。

已弃用的类 o.a.n.crawl.Crawler 仍在代码库中 https://issues.apache.org/jira/browse/NUTCH-1621

关于hadoop - hadoop 1.2.1 上的 nutch 1.9 中缺少 org.apache.nutch.crawl.Crawl,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25726147/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com