gpt4 book ai didi

java - 从 html 获取将显示给用户的文本

转载 作者:行者123 更新时间:2023-11-30 05:12:06 25 4
gpt4 key购买 nike

有点随机,我想玩一些 NLP 的东西,我想:

从 HTML 中获取将在浏览器中向用户显示的所有文本

我的理想输出中不会有任何标签,只会有句号(以及使用的任何其他标点符号)和换行符,尽管我可以容忍相当合理的失败量(随机其他内容最终出现在输出中) )。

如果有一种方法可以在内容可能无法继续的情况下插入换行符或句号,那么这将被视为额外的好处。例如:

ul 或选项标签中的项目可以用句号分隔(或者说实话,只是忽略)。

我正在使用 Java,但有兴趣查看执行此操作的任何代码。

我可以(如果需要的话)想出一些办法来做到这一点,只是想知道是否已经有类似的东西了,因为它可能比我在一个下午想出的更好;-)。

如果我最终这样做的话,我可能编写的代码示例是使用 SAX 解析器来查找 p 标签中的内容,去除任何跨度或强等标签,并在我点击时添加句号没有句号的 div 或另一个 p。

非常欢迎任何指示或建议。

最佳答案

嗯……几乎任何 HTML 解析器都可以用来创建您想要的效果——只需运行所有标签并仅发出文本元素,并为每个 block 元素的结束标签发出 LF。正如您所说,SAX 实现既简单又直接。

关于java - 从 html 获取将显示给用户的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3031804/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com