gpt4 book ai didi

java - 如何规范化 Java 中的 URL?

转载 作者:IT老高 更新时间:2023-10-28 21:05:45 25 4
gpt4 key购买 nike

URL normalization (or URL canonicalization) is the process by which URLs are modified and standardized in a consistent manner. The goal of the normalization process is to transform a URL into a normalized or canonical URL so it is possible to determine if two syntactically different URLs are equivalent.

策略包括添加斜杠、https => http 等。维基百科页面列出了很多。

在 Java 中有一个最喜欢的方法吗?也许是一个图书馆(Nutch?),但我是开放的。依赖项越小越少越好。

我现在将手动编写一些代码并密切关注这个问题。

编辑:如果 URL 引用相同的内容,我想积极规范化以将 URL 计为相同。例如,我忽略了参数 utm_source、utm_medium、utm_campaign。例如,如果标题相同,我会忽略子域。

最佳答案

关于java - 如何规范化 Java 中的 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2993649/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com