gpt4 book ai didi

java - 如何使用 Jsoup 定位特定 url 后面的特定文本字段?

转载 作者:行者123 更新时间:2023-11-30 02:50:14 24 4
gpt4 key购买 nike

目前我正在尝试使用 Java 中的 Jsoup 库抓取静态 html 页面。我找到了一种方法来获得我想要的东西,但我不确定为我的选择器选择什么。之前,我使用 CSS,但每个 html 页面我想要的文本位置并不相同。

因此我正在考虑使用这种逻辑,在特定 URL 之后出现的文本,因为页面的布局方式是:

-Topic as a link-

Text field containing information related to Topic.

HTML 看起来像这样

<A NAME="Topic"></A> <A HREF="#TOPIC LiNK"><H2> TITLE OF TOPIC </H2></A>

<PRE><B leftmargin=150 marginwidth=100\>Content that I want to scrape</B></PRE>

我想抓取“我想要抓取的内容”中的所有内容。

最佳答案

根据您的示例,您似乎试图从 <PRE> 获取文本直接放在 <A> 之后。在这种情况下,您可以使用 siblingA + siblingB它将尝试查找 sibling B 紧接着,前面是 sibling A (您可以在 official tutorialSelector documentation 找到有关选择器和示例的更多信息)。

所以在你的情况下doc.select("a+pre").text()应该足够了。

您可以添加更多详细信息,例如 href 属性的特定 URL,如 a[href=#TOPIC LiNK] ,或条件 <A href=...>前面还需要加上 <A name=..>就像

doc.select("a[name] + a + pre") 

关于java - 如何使用 Jsoup 定位特定 url 后面的特定文本字段?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38926823/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com