gpt4 book ai didi

solr - Nutch:数据读取和添加元数据

转载 作者:行者123 更新时间:2023-12-04 20:51:00 25 4
gpt4 key购买 nike

我最近开始寻找 apache nutch。我可以进行设置并能够使用 nutch 抓取我感兴趣的网页。我不太了解如何读取这些数据。我基本上想将每个页面的数据与一些元数据(现在是一些随机数据)相关联,并将它们存储在本地,稍后将用于搜索(语义)。我需要使用 solr 或 lucene 吗?我对所有这些都很陌生。据我所知,Nutch 是用来抓取网页的。它可以做一些额外的功能,比如向爬取的数据添加元数据吗?

最佳答案

有用的命令。

开始爬行

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

获取已抓取 URL 的统计信息
bin/nutch readdb crawl/crawldb -stats

读取段(从网页中获取所有数据)
bin/nutch readseg -dump crawl/segments/* segmentAllContent

读取段(仅获取文本字段)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -     noparse -noparsedata

获取每个 URL 的所有已知链接列表,包括源 URL 和链接的 anchor 文本。
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

获取所有已抓取的 URL。还提供其他信息,例如是否已获取、获取时间、修改时间等。
bin/nutch readdb crawl/crawldb/ -dump crawlContent

对于第二部分。即添加新字段我打算使用 index-extra 插件或编写自定义插件。

引用:

thisthis

关于solr - Nutch:数据读取和添加元数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10772031/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com