gpt4 book ai didi

c# - HTML 页面抓取

转载 作者:搜寻专家 更新时间:2023-10-31 23:08:17 25 4
gpt4 key购买 nike

抓取具有 AJAX/动态数据加载的网页的最佳方法是什么?

例如:抓取一个网页,该网页在加载时显示 20 张图片,但当用户向下滚动页面时,它会加载更多图片(有点像 Facebook)。在这种情况下,您如何抓取所有图像,而不仅仅是前 20 张?

最佳答案

这是连主要的搜索引擎都还没有掌握的东西。它叫做“event-driven crawling”。

Google 甚至有关于如何处理 help them crawl your ajax sites better 的指南

最好的办法是阅读一些 open source crawlers看看他们做了什么。但是,除非您心中有一个特定的目标,否则即使爬行 80% 的机会充其量也微乎其微。

crawljax 也有一些有趣的读物

基本上,您应该尝试寻找脚本并检查它们是否进行任何 ajax 调用,然后确定它们采用哪种参数并使用递增/递减的参数值进行重复调用。这仅在参数具有逻辑模式(例如数字、单个字母等)时才有效。这还取决于您是针对已知站点还是只是将其发送到野外。如果你知道你的目标,你可以检查它的 DOM 并自定义你的代码以获得更高的准确性,如 wolf 所提到的。

祝你好运

关于c# - HTML 页面抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13746882/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com