- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我需要生成一个 href
到一个 URI。除了需要百分比编码的保留字符外,一切都很容易,例如链接到 /some/path;element
应显示为 <a href="/some/path%3Belement">
(我知道 path;element
代表一个实体)。
最初我正在寻找一个 Java 库来执行此操作,但我最终自己写了一些东西(在下面查看 Java 失败的原因,因为这个问题不是特定于 Java 的)。
因此,RFC 3986 does suggest when NOT to encode .正如我所读,当角色属于 unreserved (ALPHA / DIGIT / "-" / "." / "_" / "~")
时,这应该会发生。类(class)。到目前为止,一切都很好。但是相反的情况呢? RFC 只提到百分比( %
)总是需要编码。但是其他人呢?
问题:假设所有非未保留的内容都可以/应该进行百分比编码是否正确?例如,左括号 (
不一定需要编码而是分号;
做。如果我不对其进行编码,我最终会寻找 /first
* 当关注 <a href="/first;second">
时.但是关注 <a href="/first(second">
我总是最终寻找 /first(second
, 正如预期的那样。令我困惑的是 (
和 ;
都在同一个sub-delims
类就 RFC 而言。正如我想象的那样,对所有非保留的内容进行编码是一个安全的选择,但是当涉及到本地化 URI 时,SEO 能力、用户友好性又如何呢?
现在,Java 库失败了。我试过这样做
new java.net.URI("http", "site", "/pa;th", null).toASCIISTring()
但这给出了 http://site/pa;th
这是不好的。观察到类似的结果:
javax.ws.rs.core.UriBuilder
encodePath(String, String)
和 encodePathSegment(String, String)
[*] /first
是调用 HttpServletRequest.getServletPath()
的结果在服务器端点击 <a href="/first;second">
编辑:我可能需要提到这种行为是在 Tomcat 下观察到的,我已经检查了 Tomcat 6 和 7 的行为方式相同。
最佳答案
Is it correct to assume that everything that is not unreserved, can/should be percent-encoded?
没有。 RFC 3986 是这样说的:
"Under normal circumstances, the only time when octets within a URI are percent-encoded is during the process of producing the URI from its component parts. This is when an implementation determines which of the reserved characters are to be used as subcomponent delimiters and which can be safely used as data. "
这意味着您可以根据上下文决定哪些分隔符(即 <delimiter>
字符)需要编码。那些不需要编码的不应该编码。
例如,您不应该对 /
进行百分号编码如果它出现在路径组件中,但当它出现在查询或片段中时,您应该对其进行百分比编码。
所以,事实上,一个 ;
字符(属于 <reserved>
的成员不应自动进行百分号编码。事实上,Java URL 和 URI 类不会这样做;请参阅 URI(...) javadoc,特别是第 7 步)以了解 <path>
的处理方式。组件被处理。
这一段加强了这一点:
"The purpose of reserved characters is to provide a set of delimiting characters that are distinguishable from other data within a URI. URIs that differ in the replacement of a reserved character with its corresponding percent-encoded octet are not equivalent. Percent- encoding a reserved character, or decoding a percent-encoded octet that corresponds to a reserved character, will change how the URI is interpreted by most applications. Thus, characters in the reserved set are protected from normalization and are therefore safe to be used by scheme-specific and producer-specific algorithms for delimiting data subcomponents within a URI."
所以这表示一个 URL 包含一个百分比编码的 ;
与包含原始 ;
的 URL 不同.最后一句话暗示它们不应该自动进行百分比编码或解码。
这给我们留下了一个问题 - 为什么您想要 ;
要进行百分比编码?
Let's say you have a CMS where people can create arbitrary pages having arbitrary paths. Later on, I need to generate href links to all pages in, for example, site map component. Therefore I need an algorithm to know which characters to escape. Semicolon has to be treated literally in this case and should be escaped.
抱歉,分号不应该被转义。
就 URL/URI 规范而言,;
没有特殊意义。它可能对特定的网络服务器/网站有特殊意义,但一般(即没有网站的具体知识)你无法知道这一点。
如果;
在特定的 URI 中确实有特殊的含义,那么如果你对它进行百分号转义,那么你就破坏了那个含义。例如,如果网站使用 ;
允许将 session token 附加到路径,然后百分比编码将阻止它识别 session token ......
如果;
只是一些客户端提供的数据字符,然后如果你对它进行百分比编码,你可能会改变 URI 的含义。这是否重要取决于服务器做什么;即是否解码作为应用程序逻辑的一部分。
这意味着了解“正确的事情”需要深入了解 URI 对最终用户和/或站点的意义。这将需要先进的读心技术来实现。我的建议是让 CMS 通过在将 URI 路径传送到您的软件之前适本地转义任何定界符来解决它。该算法必然特定于 CMS 和内容交付平台。它/他们将响应对由 URL 标识的文档的请求,并且需要知道如何解释它们。
(支持任意人使用任意路径有点疯狂。必须有一些限制。例如,甚至 Windows 都不允许您在文件名组件中使用文件分隔符。所以您是将不得不在某处有一些边界。这只是决定它们应该在哪里的问题。)
关于java - RFC3986 - 哪些 pchars 需要进行百分比编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5913623/
我对自定义 CSS 或在将图像作为 Logo 上传到页面时使用编码 block 有疑问。我正在为我的网站使用 squarespace,我需要帮助编码我的 Logo 以使其适合每个页面。一个选项是使用自
如 encoding/json 包文档中所述, Marshal traverses the value v recursively. If an encountered value implement
我必须做一些相当于Java中的iconv -f utf8 -t sjisMS $INPUT_FILE的事情。该命令在 Unix 中 我在java中没有找到任何带有sjisMS的编码。 Java中有Sh
从 PHP 5.3 迁移到 PHP 5.6 后,我遇到了编码问题。我的 MySQL 数据库是 latin1,我的 PHP 文件是 windows-1251。现在一切都显示为“ñëåäíèòå àäðå
我有一个 RScript文件(我们称之为 main.r ),它引用了另一个文件,使用以下代码: source("functions.R") 但是,当我运行 RScript 文件时,它提示以下错误:
我无法设法从 WSDL 创建 RPC/编码风格的代码 - 有谁知道哪个框架可以做到这一点? 带有 adb 和 xmlbeans 映射的 Axis2 无法正常工作(无法处理响应中的肥皂编码)直接使用 X
安装了最新版本的Node.Js()和npm包**(1.2.10)**当我运行 Express 命令来生成项目时,它向我抛出以下错误 buffer.js:240 switch (encoding &
JavaScript中有JSON编码/解码base64编码/解码函数吗? 最佳答案 是的,btoa() 和 atob() 在某些浏览器中可以工作: var enc = btoa("this is so
>>> unicode('восстановление информации', 'utf-16') Traceback (most recent call last): File "", line
我当然熟悉 java.net.URLEncoder 和 java.net.URLDecoder 类。但是,我只需要 HTML 样式的编码。 (我不想将 ' ' 替换为 '+' 等)。我不知道任何只做
有一个非常简单的 SSIS 包: OLE DB Source 通过 View 获取数据(数据库表 nvarchar 或 nchar 中的所有字符串列)。 派生列,用于格式化现有日期并将其添加到数据集(
我正在使用一个在 Node 中进行base64编码的软件,如下所示: const enc = new Buffer('test', 'base64') console.log(enc) 显示: 我正
我试图将带有日语字符的数据插入到 oracle 数据库中。事情是保存在数据库中的是一堆倒置的问号。我该如何解决这个问题 最佳答案 见 http://www.errcode.net/blogs/?p=6
当我在 java 中解压 zip 文件时,我发现文件名中出现了带有重音字符的奇怪行为。 西索: Add File user : L'equipe Technique -- Folder : spec
在网上冲浪我找到了 ExtJS 的 Ext.Gantt 插件,该扩展有一个特殊的编码。任何人都知道如何编码那样或其他复杂的形式。 Encoded Gantt Chart 最佳答案 它似乎被 Dean
我正在用C语言做一个编码任务,我进展顺利,直到读取符号并根据表格分配相应的代码的部分。我必须连接几个代码,直到它们的长度达到 32 位,为此我必须将它们写入一个文件中。这种写入文件的方法给我带来了很多
我有一个外部链接的 javascript 文件。在那个 javascript 里面,我有这个功能: function getMonthNumber(monthName){ monthName = mo
使用mechanize,我检索到一个网页的源页面,其中包含一些非ASCII字符,比如汉字。 代码如下: #using python2.6 from mechanize import Browser b
我有一个包含字母 ø 的文件。当我用这段代码 File.ReadLines(filePath) 读取它时,我得到了一个问号而不是它。 当我像这样添加编码时 File.ReadLines(filePat
如何翻译下面的字符串 H.P. Dembinski, B. K\'{e}gl, I.C. Mari\c{s}, M. Roth, D. Veberi\v{c} 进入 H. P. Dembinski,
我是一名优秀的程序员,十分优秀!