gpt4 book ai didi

python - bs4 是否检索整个网页,即使它需要物理滚动才能获取所有元素?

转载 作者:太空宇宙 更新时间:2023-11-03 21:48:01 25 4
gpt4 key购买 nike

我对编码非常陌生,我正在通过 Python 进行学习,如果我在这篇文章中违反了任何规则,我也深表歉意。

我的问题是,正如标题中所述,我可以让 bs4 下载整个网页,尽管它需要物理滚动来加载所有元素吗?

我发现,我可以用 Java 完成它,但我想保留它到 Python,因为我对编码还很陌生,并且当时想专注于一种语言。

有问题的网页是这个:“https://www.ejendomstorvet.dk/investering/vestjylland/boligudlejning

我在这里上传了一个 html 代码示例,您可以在其中看到有问题的元素: /image/VDmr0.jpg

我在这里并不是要求具体的解决方案,只是一些指示,我应该使用 bs4 中的哪些功能来执行此操作,或者,如果我需要通过另一个加载项程序来执行此操作?

提前致谢!

最佳答案

BS4 仅从输入的 URL 上传 HTML 代码。它不会从站点获取所有页面(但如果您显示 URL 应该去哪里,它当然可以做到这一点,但这是更多的 Python 工作,而不是 BS4)。这也意味着 BS4 不会从页面中废弃 JavaScript。因此,如果有任何由 JavaScript/Ajax 加载的内容 - BS4 无法处理它。因此,如果您在问题中的意思是 - 如果 BS4 可以解析包含大量元素的简单长 HTML 页面 - 答案是 ,但如果您的意思是它是否可以解析该页面中的可下载元素 - 答案是 <强>不。

附注如果您需要从任何页面中删除一些 JS 元素 - 您可以在 Scrapy 上使用或者如果你想在任何页面上完全控制 JS,但要复杂得多 - Selenium .

关于python - bs4 是否检索整个网页,即使它需要物理滚动才能获取所有元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52333368/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com