gpt4 book ai didi

javascript - JSOUP:从 HTML 文档解析 Javascript 字段?

转载 作者:行者123 更新时间:2023-11-29 22:24:43 26 4
gpt4 key购买 nike

我是 JSOUP 的新手,我在使用 Element.select 标签或 id 值进行解析时没有遇到任何问题。我遇到的问题是如何在页面中筛选抓取 javascript 代码。我在这里加载文档:

Document doc = Jsoup.connect(pageUrl)
.userAgent(Agent)
.timeout(5000)
.get();

我尝试提取的 javascript 字段值如下:

arrayGPSLocation["0"]    = "-19473982376,6848295867";
arrayGPSLocation["1"] = "-19473982376,6848296245";

由于这些数组值不在标准代码标记 <> 中,JSOUP 是执行此操作的合适方法吗?我喜欢 JSOUP 的 API。唯一的其他方法是将 String 例程组合在一起......即:

int start = pageBuffer.indexOf("arrayGPSLocation[\" + counter + \"]");
int end = pageBuffer.indexOf(";");
String result = pageBuffer.subString(start,end);

这个伪代码示例在解析大页面时会出现严重的性能问题。有谁知道如何使用 JSOUP 完成此操作,还是我应该编写自己的爬虫?

最佳答案

使用 Jsoup 您所能做的就是选择包含 javascript 代码的元素,将其值作为字符串获取并使用该字符串。就像您在示例中所做的那样。

关于javascript - JSOUP:从 HTML 文档解析 Javascript 字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10270473/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com