gpt4 book ai didi

Java 解析器 HTML 使用纯字符串方法?

转载 作者:行者123 更新时间:2023-12-01 15:32:32 27 4
gpt4 key购买 nike

这是个好主意吗?嗯,我使用过其他第 3 方库,如 JSoup,它工作得很好,但对于这个项目来说它是不同的。当您只想从中获取一项时,加载和解析整个文档是否值得?有些html页面也很简单,所以我也可以使用String方法。原因是内存会成为一个问题,并且加载文档也需要一些时间。解析 XML 时,我总是使用 SAX 解析器,因为它不会将其加载到内存中,而且速度很快。我可以在 html 文档上使用同样的东西吗?或者已经有这样的东西了吗?因此,如果有一个非 DOM HTML 轻量级解析器,那就太好了。

最佳答案

如果 HTML 符合 XML(即 XHTML),那么您可以使用标准 SAX 解析器。在这里您可以找到可供选择的 Java HTML 解析器列表:http://java-source.net/open-source/html-parsers 。 HotSax 可能会处理您的所有用例。

关于Java 解析器 HTML 使用纯字符串方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9401148/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com