gpt4 book ai didi

java - 一个可以跳过 HTML 标签的 java.io.Reader 类?

转载 作者:行者123 更新时间:2023-11-30 04:59:22 25 4
gpt4 key购买 nike

我需要从大量文本中去除 HTML。如果我能找到一个实现 java.io.Reader 的类来包装另一个 Reader,并转换文本以省略所有 HTML 标签(或者可能用空格替换它们),那就太酷了。它需要能够处理格式错误的 HTML。

性能很重要。我需要尽快处理数千兆字节的文本。执行此操作的正常方法是将 HTML 读入字符串,将其解析为 DOM 树,然后迭代节点以提取文本。不幸的是,这太慢了。我认为实现必须基于某种低级词法分析器。

有人知道可以做到这一点的库吗?

最佳答案

我假设您想要所有文本,因此获取大多数内容的黑客正则表达式是不合适的。这意味着您至少需要完成解析的第一部分,但希望库在此之后尽可能少地执行操作。

您可以使用tagsoup这为您提供了一个不错的低级萨克斯界面。只需忽略标签并收集文本节点的值即可。简单且尽可能快。

关于java - 一个可以跳过 HTML 标签的 java.io.Reader 类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7448672/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com