gpt4 book ai didi

java - 是否有标准的 Java SE HTML 解析器?如果是这样,为什么要使用非标准的?

转载 作者:搜寻专家 更新时间:2023-11-01 03:11:31 26 4
gpt4 key购买 nike

我需要解析一个简单的 HTML 页面,其中包含一个简单的表单。 StackOverflow 上类似问题的答案建议使用多种非标准 Java 库中的一种,例如 TagSoup、JSoup、HTMLParser 等等。

但是,网络搜索显示通过此类在 Java SE 中存在一些标准功能:http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html

我的子问题是:

  1. 标准的 ParserDelegator 类真的可以解析像我这样的用例吗?
  2. 标准库的局限性是什么导致需要这么多非标准库?
  3. ParserDelegator 在 swing 中的事实是否排除了在 web 应用程序的常规 EC2 云服务器中使用它?我是否必须绕过很多障碍才能绕过 headless 方面,或者这只是对配置的一个小调整?
  4. 如果不推荐标准的,我应该使用哪个非标准的,考虑到:(a) 我希望不偏离标准太远; (b) 我的简单用例; (c) 期望成熟可靠的实现; (d) 没有尺寸或重量限制,因为这是一个服务器应用程序,而不是嵌入式客户端。 API 的优先级要低得多,所以虽然我很欣赏 JSoup 的 CSS 选择器(如 API),但其他问题 (a) 到 (d) 会覆盖它。

谢谢。

最佳答案

JDK 内置了支持 HTML 1.0 左右的 HTML 解析器。它应该支持基本文本格式化标签和表单的解析。

使用其他第三方解析器的原因是需要支持“真实的”HTML 页面 DHTML、JavaScript 等。

JSoup 是可以完成这项工作的流行解析器之一。有关其他实现的更多信息,请查看以下讨论:

Pure Java HTML viewer/renderer for use in a Scrollable pane

关于java - 是否有标准的 Java SE HTML 解析器?如果是这样,为什么要使用非标准的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9075774/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com