gpt4 book ai didi

java - Jsoup 解析和嵌套标签

转载 作者:塔克拉玛干 更新时间:2023-11-02 18:58:41 25 4
gpt4 key购买 nike

我正在学习 Jsoup 并且有这个 HTML:

 [...]
<p style="..."> <!-- div 1 -->
Content
</p>
<p style="..."> <!-- div 2 -->
Content
</p>
<p style="..."> <!-- div 3 -->
Content
</p>
[...]

我使用 Jsoup.parse() 和 document select("p") 来捕获“内容”(效果很好)。但是……

 [...]
<p style="..."> <!-- div 1 -->
Content
</p>
<p style="..."> <!-- div 2 -->
Content
</p>
<p style="..."> <!-- div 3 -->
Content
<p style="..."></p>
<p style="..."></p>
</p>
[...]

在此场景中,我看到 Jsoup.parse() 将此代码转换为:

 [...]
<p style="..."> <!-- div 1 -->
Content
</p>
<p style="..."> <!-- div 2 -->
Content
</p>
<p style="..."> <!-- div 3 -->
Content
</p>
<p style="..."> <!-- div 4 -->
</p>
<p style="..."> <!-- div 5 -->
</p>
[...]

如何使用 Jsoup(div 3 内的 div 4 和 5)保持嵌套段落的顺序?


添加示例:

HTML 文件:

 <html>
<head>
<title>Title</title>
</head>
<body>
<p style="margin-left:2em">
<span class="one">Text</span>
<span class="two"><span class="nest">Text</span></span>
<span class="three"></span>
</p>
<p style="margin-left:2em">
<span class="one">Text</span>
<span class="two"><span class="nest">Text</span></span>
<span class="three"></span>
</p>
<p style="margin-left:2em">
<span class="one">Text</span>
<span class="two"><span class="nest">Text</span></span>
<span class="three"></span>
<p style="margin-left:2em"></p>
<p style="margin-left:2em"></p>
</p>

</body>
</html>

Java代码:

Document doc = null;
doc = Jsoup.connect(URL_with_HTML).get();
System.out.println(doc.outerHtml());

返回:

<html>
<head>
<title>Title</title>
</head>
<body>
<p style="margin-left:2em"> <span class="one">Text</span> <span class="two"><span class="nest">Text</span></span> <span class="three"></span> </p>
<p style="margin-left:2em"> <span class="one">Text</span> <span class="two"><span class="nest">Text</span></span> <span class="three"></span> </p>
<p style="margin-left:2em"> <span class="one">Text</span> <span class="two"><span class="nest">Text</span></span> <span class="three"></span> </p>
<p style="margin-left:2em"></p>
<p style="margin-left:2em"></p>
<p></p>
</body>
</html>

这是正确的吗?我使用 Jsoup 1.6.1。我知道 Jsoup 应该返回嵌套段落而不是之前的返回。

最佳答案

HTML 中不存在嵌套段落。自 Jsoup implements the WHATWG HTML5 specification 后,上一段自动关闭:

  1. A p标签被以下任何一项自动关闭:address , article , aside , blockquote , div , dl , fieldset , footer , form , h1 , h2 , h3 , h4 , h5 , h6 , header , hgroup , hr , main , menu , nav , ol , p , pre , section , table , 或 ul .因此<p><div></div> becomes <p></p><div></div> .
  2. 一个结束标签,其名称为 p (即 </p> )没有相应的开始标记是一个解析错误并被替换为 <p> .因此<span></span></p>变成 <span></span><p> .

所以 jsoup 是正确的,你的 HTML 是无效的。

请务必理解您的 HTML 无效,因为您有太多 </p>而不是因为“嵌套”段落。嵌套不会发生,因为它们会自动关闭。不过后来的</p>已过时,因为“对应的”<p>之前已经自动关闭了。

关于java - Jsoup 解析和嵌套标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9853880/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com