gpt4 book ai didi

javascript - 如何使用 BeautifulSoup 抓取由 javascript 生成的数据?

转载 作者:行者123 更新时间:2023-12-03 02:39:30 25 4
gpt4 key购买 nike

我正在尝试使用 python 和 BeautifulSoup 进行网络抓取来迁移博客中的一些评论。我正在寻找的内容不在 HTML 本身中,并且似乎是在脚本标记中生成的(我找不到)。我已经看到了一些与此相关的答案,但大多数答案都是特定于某个问题的,我似乎不知道如何将其应用到我的网站上。我只是想从这样的页面上抓取评论:

http://www.themasterpiececards.com/famous-paintings-reviewed/bid/92327/famous-paintings-duccio-s-maesta

我也尝试过 Selenium,但我目前使用的是基于 Cloud9 的 IDE,它似乎不支持 Web 驱动程序。

如果我弄错了任何术语,我深表歉意,我对编程还很陌生。如果有人有任何提示,那将会很有帮助。谢谢!

最佳答案

您可以通过多种方式废弃此类内容。其中之一是了解该网站上的评论是如何加载的。在 Chromium 开发者工具中快速查找时,提到的页面的评论通过 this 加载。 API 调用。

这可能不适合您,因为您可能无法为每个不同的页面生成此 URL。

另一种更可靠的方法是使用 GUIless 浏览器渲染此类 js 内容,为了便于实现,我建议使用 scrapy 和 splash 。Splash 是一个 python 框架,可以为您渲染大部分内容请求。

关于javascript - 如何使用 BeautifulSoup 抓取由 javascript 生成的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48393021/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com