gpt4 book ai didi

javascript - 在启用 Javascript 的情况下抓取网站?

转载 作者:太空狗 更新时间:2023-10-29 17:21:50 27 4
gpt4 key购买 nike

我正在尝试抓取信息并将其提交到严重依赖 Javascript 来执行其大部分操作的网站。当我在浏览器中禁用 Javascript 时,该网站甚至无法工作。

我在 Google 和 SO 上搜索了一些解决方案,有人建议我应该对 Javascript 进行逆向工程,但我不知道该怎么做。

到目前为止,我一直在使用 Mechanize,它适用于不需要 Javascript 的网站。

有没有办法通过 urllib2 或类似的东西访问使用 Javascript 的网站?如果需要的话,我也愿意学习 Javascript。

最佳答案

我写了一个关于这个主题的小教程,这可能会有所帮助:

http://koaning.io.s3-website.eu-west-2.amazonaws.com/dynamic-scraping-with-python.html

基本上你所做的是让 selenium 库假装它是一个 firefox 浏览器,浏览器将等到所有 javascript 加载完毕,然后再继续向你传递 html 字符串。一旦你有了这个字符串,你就可以用 beautifulsoup 解析它。

关于javascript - 在启用 Javascript 的情况下抓取网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3362859/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com