gpt4 book ai didi

python - 检索完整的网页,包括动态加载的链接/图像

转载 作者:行者123 更新时间:2023-12-01 03:14:13 25 4
gpt4 key购买 nike

问题

下载可动态加载链接/图像的网站的完整脱机副本

研究

Stackoverflow 上有一些问题(例如 [1][2][3] )解决了这个问题,其中大部分都使用 wget 获得了最佳答案。或 httrack ,在动态加载链接或使用 srcset 的页面上,这两种方法都失败了(如果我错了,请纠正我)而不是 srcimg标签 - 或任何通过 JS- 加载的东西。一个相当明显的解决方案是 Selenium ,但是,如果您曾经在生产中使用过 Selenium,您很快就会开始看到由这样的决定引起的问题(资源繁重,使用完全驱动程序非常复杂,事实上它不是为此而构建的),据说, there are people claiming to have been using it easily in production for years

预期解决方案

一个脚本(最好是在 python 中),它解析页面的链接并单独加载它们。我似乎找不到任何现有的脚本来做到这一点。如果您的解决方案是“如此实现您自己的”,那么首先提出这个问题是毫无意义的,我正在寻找现有的实现方案。

示例

  • Shopify.com
  • 使用 Wix 构建的网站
  • 最佳答案

    现在有 Selenium 的 headless 版本和替代方案,例如 PhantomJS , 要么可以用小脚本到 任何动态加载的网站。
    我已经实现了一个通用的 刮刀 here ,并解释了有关该主题的更多信息 here

    关于python - 检索完整的网页,包括动态加载的链接/图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49844650/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com