gpt4 book ai didi

java - 为什么我的爬网程序获取错误的 HTML 代码?

转载 作者:太空宇宙 更新时间:2023-11-04 09:24:21 25 4
gpt4 key购买 nike

我想用 Java 编写一个爬虫程序用于一些学校练习。实际上,用jsoup库实现的爬虫代码是有效的,因为我的请求结果是一些HTML代码,但是当我搜索网站上明确写着的单词时,却找不到,因为爬虫中的一些div

然后我意识到,我得到了与您导航到网站并右键单击 ->“查看页面源代码”时看到的相同的代码。当我将代码与右键单击 ->“检查”进行比较时,代码与“查看页面源代码”中的代码不同

我可以做些什么来获取包含完整内容的 HTML 代码吗?

请求的网址:https://app.libertex.com/?lang=deu&_ga=2.222573595.1459393376.1568209606-1642141519.1566978579&_gac=1.53153498.1566978579.CjwKCAjwzJjrBRBvEiwA867byuxkXf35eSWyL2LJhLel3PRiGsSfvU6iLb00E21dQOkogLcx_z5G6hoCQgwQAvD_BwE

最佳答案

您无法使用 jsoup 获取正确的代码,因为该网站动态加载内容。

该网页动态加载代码,即加载初始内容,然后执行其他代码来加载其余内容。 jsoup 只是一个 HTML 解析器,这意味着它可以解析给定的各种内容。它无法执行 Javascript 或等待外部文件加载。

要抓取这样的网站,您可能需要某种自动浏览器。我个人在 Python 中使用 Selenium 来抓取动态加载的网站。

关于java - 为什么我的爬网程序获取错误的 HTML 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57910860/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com