gpt4 book ai didi

Java - 使用 Jsoup 获取脚本标签内的文本

转载 作者:IT老高 更新时间:2023-10-28 20:43:53 24 4
gpt4 key购买 nike

我正在使用 Jsoup 库来读取 URL。此网址包含几个 <script> 内的文本标签。我可以获取每个 <script> 中的文本吗?标签?请注意,我不是要求解析 Javascript 文件,因为我已经知道 JSoup 不允许这样做。 URL 的实际源代码在脚本标记中包含文本,我需要它。

doc = Jsoup.connect("http://www.example.com").timeout(10000).get();

Element div = doc.select("script").first();
for (Element element : div.children()) {
System.out.println(element.toString());
}

这是源代码中脚本标签之一的样子:

<script type="text/javascript">
(function() {
...
})();
</script>

最佳答案

或者,您可以使用 Element#html()返回元素内部 html 的方法。

从 1.11.1 开始:使用高效 Element#selectFirst()找到脚本元素的方法。

Document doc = Jsoup.connect("http://www.example.com").timeout(10000).get();Element scriptElement = doc.selectFirst("script");// Don't forget to check scriptElement is not null...String jsCode = scriptElement.html(); 

直到 Jsoup 1.10.3:合并 Element#select()Elements#first()调用以查找脚本元素。

Document doc = Jsoup.connect("http://www.example.com").timeout(10000).get();Element scriptElement = doc.select("script").first();// Don't forget to check scriptElement is not null...String jsCode = scriptElement.html(); 

关于Java - 使用 Jsoup 获取脚本标签内的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16780517/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com