gpt4 book ai didi

python - HTML 不反射(reflect) Beautiful Soup 浏览器中的网页内容

转载 作者:可可西里 更新时间:2023-11-01 13:24:16 24 4
gpt4 key购买 nike

我正在尝试使用 Beautiful Soup 从网站上抓取内容。在做一些测试时,我得到以下输出(这只是最后的最后一点):

<!-- 6. Load the app --> 
<my-app>
Loading...
</my-app>

</body>

</html>

“加载”部分是我想要的。为什么没有为此加载 html?如果我在 Google 中查看源代码,也会发生同样的事情。如果看不到代码,我该如何抓取。

有问题的页面是:

https://searchusan.ama-assn.org/finder/usan/search/ */相关/1

谢谢。

最佳答案

Beautiful Soup 加载它在页面首次呈现时看到的页面。不幸的是,您尝试抓取的页面使用了 javascript,它在初始页面加载后呈现您想要的信息。 Javascript 总是给 Beautiful Soup 带来问题,而我使用 javascript 的唯一纯粹的 Beautiful Soup 解决方案非常多毛、缓慢且容易崩溃/挂起。

我建议您使用 Selenium 和 Beautiful Soup 这样的工具,它可以加载整个页面。

这是一个例子:Python Scraping JavaScript using Selenium and Beautiful Soup

关于python - HTML 不反射(reflect) Beautiful Soup 浏览器中的网页内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41495589/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com