gpt4 book ai didi

apache - Nutch 不会抓取表单中的所有链接

转载 作者:行者123 更新时间:2023-12-04 21:47:03 25 4
gpt4 key购买 nike

我在抓取我的网站时遇到问题...有一个带有两个下拉列表的表单....当我开始抓取时,抓取工具只从表单中获取部分链接....从第一个下拉列表中获取接受部分选项,从第二个下拉菜单开始......我尝试更改 nutch-defaults.xml 文件中的一些配置,但一切都一样......

I change 
fetcher.threads.per.queue 1 - 10
db.ignore.internal.links true - false
db.ignore.external.links false - true
http.content.limit 65536 - 65536000
file.content.limit 65536 - 65536000
db.update.max.inlinks 10.000 - 100.000

有没有其他选项可以帮助我抓取表单中的所有选项......?
感谢您的回答。

最佳答案

抱歉,代表太低,无法发表评论!!!

你有链接吗。

也是下拉 ajax 或花哨的东西。内存中的 Nutch 只会抓取页面上的内容。 IE。如果您在页面加载时加载前 10 个,而在用户滚动时仅加载其余的服务,我相信它找不到那个。

更多的信息会很好重新页面....

干杯
罗宾

关于apache - Nutch 不会抓取表单中的所有链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12796858/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com