gpt4 book ai didi

hadoop - 在 Apache Nutch 中爬行时出错

转载 作者:可可西里 更新时间:2023-11-01 16:24:33 26 4
gpt4 key购买 nike

我已经在 Hadoop(2.5.2) 多节点集群(AWS EC2 机器)上安装了 Apache Nutch 2.3.1。我相应地配置了 Nutch 文件(在主节点上)。我已将 seed.txt 文件(其中包含要抓取的 url)从 master 文件系统移动到 Hdfs 文件系统。现在,我运行以下命令进行抓取,

bin/hadoop jar/home/ubuntu/nutch/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1 -topN 5

我遇到了错误,

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.hadoop.util.RunJar.main(RunJar.java:205)

我已经安装了 java - 1.8.0_151。我发现在此 java 版本中找不到 Crawl 类。那么,我们应该用 java1.7 版本替换 java1.8 还是其他问题。

帮我解决这个问题。

最佳答案

org.apache.nutch.crawl.Crawl 类已被删除多年。建议改为运行 shell 脚本 bin/crawl。它将为爬网的每个步骤启动 Hadoop 作业:注入(inject)、生成、提取、解析等。或者,您可以通过 bin/nutch 运行每个步骤,cf。 https://wiki.apache.org/nutch/Nutch2Tutorial

关于hadoop - 在 Apache Nutch 中爬行时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47725746/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com