gpt4 book ai didi

javascript - 我如何从不返回简单 HTML 的网站上抓取数据

转载 作者:太空狗 更新时间:2023-10-30 02:55:03 25 4
gpt4 key购买 nike

我一直在使用 requests 和 BeautifulSoup for python 从基本网站抓取 html,但大多数现代网站并不只是提供 html 作为结果。我相信他们运行 javascript 或其他东西(我不是很熟悉,这里有点菜鸟)。我想知道是否有人知道如何在 google flights 上搜索航类并抓取最上面的结果,也就是最便宜的价格?

如果这是简单的 html,我可以只解析 html 树并找到文本结果,但是当您查看“页面源代码”时,这不会出现。如果您在浏览器中检查该元素,您会看到 hmtl 标签内的价格,就像您在查看基本网站的常规页面源代码一样。

检查元素有 html 但页面源代码没有,这是怎么回事?有谁知道如何抓取此类数据?

非常感谢!

Inspect Element Javascript?

最佳答案

您发现了——页面标记在初始服务器响应后使用 javascript 添加。我没有使用 BeautifulSoup,但从它的文档来看,它似乎不执行 javascript,所以你在这方面运气不好。

你可以试试 Selenium ,它基本上是一个虚拟浏览器——人们用它来进行前端测试。它执行 javascript,因此它可能能够为您提供您想要的东西。

但是,如果您专门查找 Google 航类信息,可以使用相应的 API :) https://developers.google.com/qpx-express/v1/

关于javascript - 我如何从不返回简单 HTML 的网站上抓取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43668384/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com