gpt4 book ai didi

web-crawler - 如何让搜索爬虫正确索引无限滚动的页面?

转载 作者:行者123 更新时间:2023-12-03 23:22:10 33 4
gpt4 key购买 nike

我有一个实现无限滚动的网站:当用户到达页面末尾时,会进行 AJAX 调用并将新内容附加到页面底部。然而,这意味着搜索爬虫无法获取第一个“分页符”之后的所有内容。例如,我有一个页面列出了所有带有“信息图表”标签的项目。实际上有几十个这样的项目,但爬虫只能看到前 10 个,因为其他项目是根据内容相对于浏览器窗口的位置加载的。由于爬虫没有浏览器窗口,因此根本不会加载新项目。

那么,怎样才能让搜索爬虫在无限滚动的情况下访问网页的全部内容,同时又能让用户享受无限滚动和无分页的乐趣呢?

最佳答案

沿着 graceful degradation 的路线,你不应该依赖 JavaScript 来做像分页这样重要的事情。我可能会先实现一个正常的分页系统(搜索引擎可以索引),然后使用JS隐藏分页链接并实现无限滚动的解决方案。

关于web-crawler - 如何让搜索爬虫正确索引无限滚动的页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10784080/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com