gpt4 book ai didi

java - Jericho纯文本如何分隔文本

转载 作者:行者123 更新时间:2023-12-01 14:58:39 24 4
gpt4 key购买 nike

我尝试使用 Jericho 解析纯文本,代码如下:

    public static String getPlainText(String html) {
Source htmlSource = new Source(html);
Segment htmlSeg = new Segment(htmlSource, 0, html.length());
Renderer htmlRend = new Renderer(htmlSeg);
// System.out.println(htmlRend.toString());
return htmlRend.toString();
}

但是对于以下 html 片段:

    Phone (808) 845-0000<br />
Fax (808) 842-3616
<a href="mailto:helpdesk@progressive-hi.com">
helpdesk@progressive-hi.com</a>

我得到输出:

Phone (808) 845-0000 Fax (808) 842-3616helpdesk@progressive-hi.com

现在我想要的只是标签中的所有文本都应该彼此分开,即传真和电子邮件应该彼此分开。有什么办法可以实现这一点吗?

谢谢

最佳答案

问题已解决。

Source source=new Source(new URL(sourceUrlString));
System.out.println(source.getTextExtractor().setIncludeAttributes(true).toString());

http://jericho.htmlparser.net/samples/console/src/ExtractText.java

关于java - Jericho纯文本如何分隔文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13999981/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com