gpt4 book ai didi

java - Nutch 网址未获取

转载 作者:太空宇宙 更新时间:2023-11-04 10:01:45 25 4
gpt4 key购买 nike

尝试从该域的本地网站抓取一些网址:

https://foo.foofoo.com

但是,我无法为下面这些特定的内容制作它。因为 nutch 会跳过它们,甚至会生成它们以便获取。但它并没有成功:

https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa

仅获取一些像这样的网址(不是全部!只有少数!):

https://foo.foofoo.com/en/foofoo

这是我的 regex-urlfilter 文件,通过它我只获取英文网页:

-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com

请问有什么好主意吗?

最佳答案

在为我的用例删除一些无用的插件后,一切都恢复正常。这些插件是 nutch-extensionpointsparse-textquery(basic|site|url)

关于java - Nutch 网址未获取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53372642/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com