gpt4 book ai didi

java - 解析java字符串中的 anchor 标记

转载 作者:行者123 更新时间:2023-12-01 13:08:20 26 4
gpt4 key购买 nike

我正在创建一个网络爬虫,我只是读取页面的 html 并将其存储到字符串中。然后,我在 html 中找到了所有 anchor 标记,并将它们存储到名为anchorTags 的ArrayList 中。我现在需要获取数组列表中每个字符串的“a href=”部分。为此,我编写了以下代码;但是,由于某种原因,我收到了越界异常。请注意,我需要仅使用循环、数组列表来执行此操作:

ArrayList<String> parsedLinks = new ArrayList<String>();
String storeHTML = "";

for(int i = 0; i < anchorTags.size(); i++) {
String anchorTag = anchorTags.get(i);
int hrefIndex = anchorTag.indexOf("a href=");

if (hrefIndex > -1) {



int beginQuote = anchorTag.indexOf("\"", hrefIndex);

int EndQuote = anchorTag.indexOf("\"", beginQuote +1);

if (EndQuote > beginQuote) {
storeHTML.substring(beginQuote +1, EndQuote);

}


}
}
parsedLinks.add(storeHTML);
System.out.println(parsedLinks);
return parsedLinks;


}

最佳答案

不应该

storeHTML.substring(beginQuote +1, EndQuote);

storeHTML =anchorTag.substring(beginQuote +1, EndQuote); ?

关于java - 解析java字符串中的 anchor 标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23096881/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com