gpt4 book ai didi

javascript - Crawler4j、Jsoup 和 JavaScript : extract attribute values modified with JavaScript

转载 作者:太空宇宙 更新时间:2023-11-03 21:08:50 25 4
gpt4 key购买 nike

我正在使用 Crawler4j 和 Jsoup 来抓取网站,它适用于 HTML 文本,但有一些重要的内容,默认值在 CSS 中硬编码,然后使用 JavaScript 动态设置。例如,我有我需要宽度值,它在 CSS 中被硬编码为 10px,但在 JavaScript 中被修改为,比方说,5px。

有没有办法不用其他爬虫就可以得到这个值?或者一个简单的选择?我已经有很多代码,所以如果有可能用 Crawler4j 重写,我不想重写所有代码。

希望我的问题足够清楚,在此先感谢您的帮助!

最佳答案

这对于 crawler4jjsoup 都是不可能的。它们都只处理静态 HTML 内容。

官方 GitHub 存储库中有几个与动态 JavaScript 执行相关的未解决问题:#49 , #197#220 .

为了实现您的目标,您需要基于 Selenium 构建一个堆栈, CasperJS和/或 PhantomJS ,然后可用于高级抓取,包括 JavaScript 执行。

关于javascript - Crawler4j、Jsoup 和 JavaScript : extract attribute values modified with JavaScript,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49199332/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com