gpt4 book ai didi

javascript - 抓取 HTML 和 JavaScript

转载 作者:太空狗 更新时间:2023-10-30 01:08:22 24 4
gpt4 key购买 nike

我正在从事一个项目,我需要在其中抓取多个网站并从中收集不同类型的信息。文本、链接、图像等信息。

我正在为此使用 Python。我已经为此目的在 HTML 页面上尝试了 BeautifulSoup 并且它有效,但是在解析包含大量 JavaScript 的网站时我被卡住了,因为这些文件的大部分信息都存储在 <script> 中。标签。

有什么办法吗?

最佳答案

首先,从页面中抓取和解析 JS 并非易事。但是,如果您改用 headless Web 客户端,它可以大大简化,它将像常规浏览器一样为您解析所有内容。
唯一不同的是它的主界面不是GUI/HMI,而是API。

例如,您可以使用 PhantomJS使用支持 headless 模式的 Chrome 或 Firefox。

要获得更完整的 headless 浏览器列表,请查看 here .

关于javascript - 抓取 HTML 和 JavaScript,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22764322/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com