gpt4 book ai didi

java - 完整 url 编码的引用实现/.lib

转载 作者:行者123 更新时间:2023-12-01 15:44:57 26 4
gpt4 key购买 nike

我正在编写一个 Java 应用程序,它解析 html 中的链接并使用它们来请求其内容。当我们不知道 url 作者的“意图”时,url 编码领域是非常棘手的。例如,何时使用 %20 或 + 是一个复杂的问题:( %20 vs + ),浏览器会对包含未编码空格的 url 执行此编码。

在许多其他情况下,浏览器会在请求页面之前更改已解析 URL 的内容,例如:

http://www.Example.com/þ

...当浏览器解析和请求时变成...

http://www.Example.com/%C3%BE

..和...

http://www.Example.com/&

...当浏览器解析和请求时变成...

http://www.Example.com/&

所以我的问题是,我没有找到一个 Java 库来完成这项工作,而不是再次重新发明轮子?如果失败的话,任何人都可以指出我在通用浏览器源中的引用实现吗?或者也许是伪代码?如果做不到这一点,欢迎任何有关方法的建议!

谢谢,乔恩

最佳答案

HtmlUnit当然可以从 HTML 中挑选 URL 并解析它们(以及更多)。

不过,我不知道它是否能处理你的极端情况。我想它会处理第二个,因为这是 HTML 和 URL 的正常使用,虽然看起来有点滑稽。我不知道它将如何处理第二个,其中无效的 URL 被编码为 HTML。

我还知道,如果您发现 HTMLUnit 的做法与真实浏览器的做法不同,请编写 JUnit 测试用例来证明这一点,并提交错误报告,那么它的维护者会很高兴地迅速修复它。

关于java - 完整 url 编码的引用实现/.lib,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7248934/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com