gpt4 book ai didi

java - apache nutch 中的依赖项问题

转载 作者:行者123 更新时间:2023-11-30 12:06:42 24 4
gpt4 key购买 nike

尝试将 apache nutch 与 hadoop 集成。在使用 ant 构建驻留在运行时文件夹中的 apache-nutch-1.15.job 文件并尝试运行脚本 bin/crawl 但出现一些依赖性错误之后。提取 .job 文件时,可以看到其中嵌入的所有必需的依赖项。嵌入的依赖项版本也没有问题。

sh crawl -s <seed_file_directory_on_hdfs> <crawl_directory_on_hdfs> <num_rounds>

19/03/22 01:41:22 INFO mapreduce.Job: Running job:job_1547155431533_115992
19/03/22 01:41:34 INFO mapreduce.Job: Job job_1547155431533_115992 running
in uber mode : false
19/03/22 01:41:34 INFO mapreduce.Job: map 0% reduce 0%
19/03/22 01:41:45 INFO mapreduce.Job: Task Id :
attempt_1547155431533_115992_r_000001_0, Status : FAILED
Error: java.lang.RuntimeException: x point
org.apache.nutch.net.URLNormalizer not found.
at org.apache.nutch.net.URLNormalizers.<init>(URLNormalizers.java:146)
at org.apache.nutch.crawl.Generator$SelectorReducer.setup(Generator.java:378)
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:168)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:627)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:389)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1924)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

尝试通过更改脚本在类路径路径中提供那些提取的 jar,但没有帮助,问题仍然存在。

最佳答案

自 2014 年以来,apache nutch 的文档没有更新。

要使用 apache nutch 抓取网页,请使用 ant 构建项目并执行提到的命令以抓取到本地文件系统 (https://wiki.apache.org/nutch/NutchTutorial),方法是将所有本地路径替换为 hdfs 路径(如果要抓取内容并转储到高清文件系统)

关于java - apache nutch 中的依赖项问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55398583/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com