gpt4 book ai didi

apache - Apache Nutch爬虫如何排除静态文件夹之类; cgi-bin,图片,css是否从NutCrawer中排除?

转载 作者:行者123 更新时间:2023-12-02 21:54:04 25 4
gpt4 key购买 nike

当我们运行搜寻器时,我们会看到静态文件夹,例如; / cgi-bin,/ images,/ css等。在搜寻器作业中弹出时,我们希望将它们排除在搜寻范围之外(不是它们最终出现在索引器中),我们不希望它们在索引器中,但是如何排除它们在搜寻器中,因此它不被这些静态文件夹占用?任何帮助表示赞赏。排除它们对性能有帮助吗?现在我们看到它是出于某种原因而获取它们。 Nutch搜寻器1.2,Lucene索引器。

最佳答案

将拒绝规则添加到conf/regex-urlfilter.txt文件。

-cgi-bin
-images
-css

注意,必须在接受所有规则之前将其添加。正则表达式文件中的 +.

关于apache - Apache Nutch爬虫如何排除静态文件夹之类; cgi-bin,图片,css是否从NutCrawer中排除?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16805284/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com