gpt4 book ai didi

java - 格式化文本以删除 html 标签

转载 作者:太空狗 更新时间:2023-10-29 12:50:06 25 4
gpt4 key购买 nike

我正在使用 LastFM API 获取艺术家信息。当我调用他们的 artist.getInfo 方法时,我得到了一个 Artist 对象。但是,wiki 摘要文本的格式是这样的 html:

Arch Enemy is a Swedish <a href="http://www.last.fm/tag/melodic%20death%20metal" class="bbcode_tag" rel="tag">melodic death metal</a> band from Halmstad, Sweden, formed in 1996. Founded by <a href="http://www.last.fm/music/Carcass" class="bbcode_artist">Carcass</a> guitarist <a href="http://www.last.fm/music/Michael+Amott" class="bbcode_artist">Michael Amott</a> along with <a href="http://www.last.fm/music/Johan+Liiva" class="bbcode_artist">Johan Liiva</a>, both originally from the influential death metal band <a href="http://www.last.fm/music/Carnage" class="bbcode_artist">Carnage</a>. The band has released seven studio albums, a live album (Burning Japan Live 1999), two DVDs and three EPs. The band was originally fronted by Johan Liiva, who was replaced by <a href="http://www.last.fm/music/Angela+Gossow" class="bbcode_artist">Angela Gossow</a> as lead vocalist in 2000  

我想从此文本中获取纯文本(无 html)。我试过使用子字符串手动删除它们,但找不到执行此操作的方法。

最佳答案

我建议使用 Boilerpipe .它具有从 HTML 中提取纯文本的强大功能。

您所要做的就是:

   URL url = new URL("http://www.example.com/some-location/index.html");
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you
String text = ArticleExtractor.INSTANCE.getText(url);

这是从 URL 中提取的文本。但它的特点是您可以将 String 作为 HTML 传递。我一直在使用它,它的效果是我尝试过的最好的。

关于java - 格式化文本以删除 html 标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13084435/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com