gpt4 book ai didi

java - Java中从给定字符串中获取子字符串

转载 作者:行者123 更新时间:2023-12-02 06:07:32 25 4
gpt4 key购买 nike

我正在从网页读取内容,然后在 Jsoup 解析器的帮助下解析它,以仅获取正文部分中存在的超链接。我得到的输出为:

<a href="/sports/sports.asp" style="TEXT-DECORATION: NONE"><font color="#0000FF">Sports</font></a>
<a href="/titanic/titanic.asp" style="TEXT-DECORATION: NONE"><font color="#0000FF">Titanic</font></a>
<a href="gastheft.asp" onmouseover="window.status='License Plate Theft';return true" onmouseout="window.status='';return true">license plates</a>
<a href="miracle.asp" onmouseover="window.status='Miracle Cars';return true" onmouseout="window.status='';return true">miracle cars</a>
<a href="/crime/warnings/clear.asp" onmouseover="window.status='Clear Loss';return true" onmouseout="window.status='';return true" target="clear">Clear</a>

and even more hyperlinks.

在所有这些中,我感兴趣的是这样的数据

/sports/sports.asp
/titanic/titanic.asp
gastheft.asp
miracle.asp
/crime/warnings/clear.asp

我如何使用字符串来做到这一点,或者是否有任何其他方式或方法来使用inf Jsoup Parser本身提取此信息?

最佳答案

你可以试试这个,它有效。

public class AttributeParsing {

/**
* @param args
*/
public static void main(String[] args) {
final String html = "<a href=\"/sports/sports.asp\" style=\"TEXT-DECORATION: NONE\"><font color=\"#0000FF\">Sports</font></a>";

Document doc = Jsoup.parse(html, "", Parser.xmlParser());
Element th = doc.select("a[href]").first();

String href = th.attr("href");

System.out.println(th);
System.out.println(href);
}

}

输出:

第:<a href="/sports/sports.asp" style="TEXT-DECORATION: NONE"><font color="#0000FF">Sports</font></a>

引用:/sports/sports.asp

关于java - Java中从给定字符串中获取子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22161756/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com