gpt4 book ai didi

Apache Nutch 步骤说明

转载 作者:行者123 更新时间:2023-12-04 18:05:28 25 4
gpt4 key购买 nike

我关注了文章:https://wiki.apache.org/nutch/NutchTutorial并设置 apache nutch +solr。但我想澄清一下我是否对 nutch 步骤的工作理解正确。

1)。注入(inject):在这部分中,apache 从给定的 seed.txt 中读取 url 列表,将 url 与 regex-urlfiler 正则表达式进行比较,并使用支持的 url 更新 crawldb。

2)。生成:bin/nutch 生成 crawl/crawldb crawl/segments
Nutch 从 crawldb 获取 URL 并创建准备好获取的 URL 的获取列表。它接受 -topN 和 timegap 等输入,然后在段下创建具有当前时间的目录。

我相信,在前两个步骤中,没有与互联网互动。一切都在本地发生。

问:获取列表保存在哪里?

3)。 Fetch: bin/nutch 抓取爬取/segments/

Fetch 运行 fetchList 并从给定的 URL 中获取内容(和 URL)并将其保存在某处。

问: fetch 是否读取整个给定的 URL 页面(文本 + 另一个 URL)?
问:Nutch 在哪里保存获取的数据?

4)。解析:bin/nutch 解析 crawl/segments/

它解析条目。

问:这里的解析是什么意思?
问:我在哪里可以找到这一步的结果?

5)。 bin/nutch updatedb 爬行/crawldb 爬行/段/

完成后,Nutch 使用提取结果更新数据库。

问:它是否仅使用已解析的数据或其他内容更新 crawldb?

请解开我的疑惑。

最佳答案

您对第一步和第二步的假设是正确的。但是,您需要了解整个工作流程是如何发生的。当 Nutch 获取 url 时,它会以二进制形式获取网页数据或图像等数据,并使用名为 Content 的类将它们作为爬网数据存储到分段中。

稍后,在解析步骤中,将存储的 Content 对象解析为另一种称为 的数据格式。解析数据 包括数据文本及其外链(如果有)。 ParsedData 被放回分段以在下一个作业批处理中处理。在这一步之后是 crawldb 更新作业,这里将上一步中的链接放回 crawldb 以更新页面排名和网络链接详细信息。

在索引步骤中,来自段解析数据的信息被结构化为字段。 Nutch 使用一个名为“NutchDocument”的类来存储结构化数据,将nutch 文档放回段中以供下一步处理。最后,Nutch 将 Nutch 文档发送到 Solr 或 Elasticsearch 等索引存储。这是最后一步,在此阶段,如果您不想将它们再次发送到索引存储,您可以删除这些段。换句话说,这是数据的跟随

种子列表 -> 注入(inject)网址 -> 抓取项目(只是网址) -> 内容 -> 解析数据 -> nutch 文档。

我希望这能回答你的一些问题。

关于Apache Nutch 步骤说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29589400/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com