gpt4 book ai didi

java - Nutch 种子 URL

转载 作者:行者123 更新时间:2023-12-01 15:26:02 28 4
gpt4 key购买 nike

是否可以直接从数据库或服务等将 URL 获取到 Nutch。我对从数据库或服务获取数据并将其写入 Seed.txt 的方式不感兴趣.

最佳答案

没有。这不能直接使用默认的 nutch 代码库来完成。需要修改Injector.java来实现这一目标。

编辑:

尝试使用DBInputFormat :一个InputFormat从 SQL 表读取输入数据。您需要修改Inject代码在这里(下面代码片段中的第 3 行):

JobConf sortJob = new NutchJob(getConf());
sortJob.setJobName("inject " + urlDir);
FileInputFormat.addInputPath(sortJob, urlDir);
sortJob.setMapperClass(InjectMapper.class);

关于java - Nutch 种子 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10142953/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com