gpt4 book ai didi

java - HTML 解析器获取链接文本

转载 作者:行者123 更新时间:2023-12-01 05:53:55 25 4
gpt4 key购买 nike

我正在使用HTML Parser从网页获取链接。我需要存储 URL、链接文本和包含该链接的父页面的 URL。我已成功获取链接 URL 以及父 URL。

我仍然需要获取链接文本。

<a href="url">link text</a> 

不幸的是,我很难弄清楚,任何帮助将不胜感激。

public static List<LinkContainer> findUrls(String resource) {
String[] tagNames = {"A", "AREA"};
List<LinkContainer> urls = new ArrayList<LinkContainer>();
Tag tag;
String url;
String sourceUrl;

try {

for (String tagName : tagNames) {

Parser parser = new Parser(resource);
NodeList nodes = parser.parse(new TagNameFilter(tagName));

NodeIterator i = nodes.elements();

while (i.hasMoreNodes()) {
tag = (Tag) i.nextNode();
url = tag.getAttribute("href");
sourceUrl = tag.getPage().getUrl();

if (RegexUtil.verifyUrl(url)) {
urls.add(new LinkContainer(url, null, sourceUrl));
}
}
}

} catch (ParserException pe) {
pe.printStackTrace();
}

return urls;
}

最佳答案

您尝试过 ((LinkTag) 标签).getLinkText() 吗?就我个人而言,我更喜欢 html 解析器,它根据常用的标准(例如 xerces 或类似标准)生成 XML。这是您使用例如 http://nekohtml.sourceforge.net/ 得到的结果。

关于java - HTML 解析器获取链接文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3696409/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com