http - 哪一部分从 url 中省略了哈希片段或者为什么爬虫不简单地发送片段？-6ren

http - 哪一部分从 url 中省略了哈希片段或者为什么爬虫不简单地发送片段？

转载作者：可可西里更新时间：2023-11-01 17:09:15

26

4

前几天有人问我一个简单的问题，令我惊讶的是我不知道答案，也无法在网上轻松找到答案。

我知道 URL 中的片段不会到达后端。但我不清楚是谁在到达后端之前从 URL 中剥离该部分。

我希望我的问题非常明确，因为我正在寻找非常明确的答案:

In wikipedia they say客户端在检索文档时不应向服务器发送 URI 片段

据我所知，浏览器删除了该片段，curl 删除了该片段，wget 等。

另一方面，爬虫存在整个 SEO 问题，它们识别 #! 组合，然后将其转换为 _escaped_fragment_ - 但这是我不明白的是 - 为什么爬虫不简单地发送片段？？为什么要这么麻烦呢？如果某些客户确实发送了片段，生活不会更轻松吗？

我只能假设服务器(nginx、apache http、节点 http、rails 等应用程序服务器)剥离了片段，但我不明白其背后的动机，他们为什么要这么做？

有人可以给我解释一下吗？

最佳答案

I know fragments in the URL do not reach the backend. but I am unclear about who is stripping that part from the URL before it reaches the backend.

显然，这正是 HTTP 1.1 Specification 的内容国家......每个人(浏览器供应商)“应该”遵守规范。其背后的主要原因是泄露用户个人信息的安全隐患。您可以仔细阅读规范，我敢肯定它对您来说会变得更加清晰。例如，在 closure 5.5.2 中你可以看到这个与 referer header 相关的声明...

A user agent MUST NOT include the fragment and userinfo components of theURI reference [RFC3986], if any, when generating the Referer fieldvalue.

另一个例子在closure 9.5与重定向有关...

this might have the effect ofdisclosing one site's fragment to another site. If the first siteuses personal information in fragments, it ought to ensure thatredirects to other sites include a (possibly empty) fragmentcomponent in order to block that inheritance

安全隐患非常清楚，但如果您仍然不了解安全隐患，至少您应该相信它并遵循规范......这就是浏览器供应商所做的(好吧，有时)，他们遵循规范

你的第二个关于ajax请求、爬虫和片段的问题，还是和上面的规范有关。规范规定客户端不得向服务器发送片段。什么是爬虫？客户端请求数据，同理。所以，对于你的这个问题/陈述......

wouldn't life be easier if some clients DID send the fragment?

答案(基于以上)是否定的，如果没有安全问题和不怀好意的人，生活会更轻松。

爬虫可能需要爬取使用片段的 ajax 页面。为了能够从服务器(据说不理解片段)请求该内容，他们使用查询字符串变量(_escaped_fragment_)，但是，您的服务器需要知道如何处理该内容查询字符串，换句话说，您需要实现它，您需要响应该请求，就像它是来自用户浏览器的 ajax 请求一样。您可以在 Google Webmaster Docs 中阅读更多相关信息

如果您仍然无法理解它，请问还不清楚的地方。但请保持友善 ;)...我没有编写 http 1.1 规范，也不是绝对的专家。

关于http - 哪一部分从 url 中省略了哈希片段或者为什么爬虫不简单地发送片段？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26011050/

26

4

0

文章推荐： c++ - 有没有办法逃避 C 预处理器指令？

文章推荐： iphone - IOS中keychainWrapper中存放NSArray或NSDictionary

文章推荐： html - http header 和 html meta 中的字符集有什么区别？

url - 如何将域关联到特定应用程序 url URL？
假设我拥有域 mydomain.com，并且我在服务器上有一个 Web 应用程序，网址为 http://99.99.99.99:1234/MyApplication/startpage.somethi
url - 如何将方案和路径添加到 url.URL
我正在尝试通过以下方式更新已解析的 URL: u, _ := url.Parse(s) if u.Scheme == "" { u.Scheme = "https" } if u.Path =
url - 如何将 URL 映射到端口和修改后的 URL？
如何将 www.somesite.com/api(.*) 映射到 www.somesite.com/$1:9000？ (我需要将/api 映射到运行 @ 端口 9000 的 Play 框架应用程序)
url - 分层 URL 与平面 URL
我有一个资源结构，如航类 > 座位 > 预订，所以预订属于某个航类的某个座位: http://example.com/jdf_3prGPS4/1/jMBDy46PbNc
url - URL 路径中包含多个句点的 URL 是否有效？
我想知道以下网址是否有效。路径中的点，在主机之后: http://www.example.com/v.b.w..com 主机中的点，作为子域的一部分: http://v.b.w..co.manufa
url - 301 URL 从一个域重定向到另一个保持完整 URL
我有两个域 - crmpicco.co.uk 和 ayrshireminis.com - 如果我浏览到: www.crmpicco.co.uk/mini/new我希望能够重定向到 www.ayrshi
url-rewriting - url 重写为外部 url
我正在尝试使用 URL 重写和应用程序请求路由来重写到外部 URL。我设置了以下规则: 在规则中，“patternToMatch”是我试
url - Url Rewrite 是否只能重写为内部 url？
我已经安装了带有 SharePoint 和 Url Rewrite 模块的 IIS 7.0。是以下句子还是我配置错误才能看到这个结果？ Url Redirect 可以将 url 重定向到任何内部(在
url - URL 中 url 单词的最大大小是多少？
我想知道，为了获得良好的 SEO，您必须在 URL 中使用自然语言。您知道字符中单词或短语的最大大小吗？例如: www.me.com/this-is-a-really-long-url.htm 我问这
url - 在 URL 中使用逗号有时会破坏 URL？
有人知道在 SEO 友好 URL 中使用逗号有什么问题吗？我正在使用一些在其 SEO 友好 URL 中使用大量逗号的软件；但我 100% 肯定我见过一些程序/平台无法正确识别 URL 并在第一个逗号后
url - 描述性 URL 与基本 URL
我有一个网站，我正在为所有链接使用干净的 URL。我想知道对于简短的基本 URL 与较长的描述性 URL 有何看法。例如，如果我的网站是关于 Georgia Bulldog 足球新闻的，那么哪个网站
url - 跟踪为长 URL 生成的短 URL
我正在编写一个类似于 tinyurl 的 URL 缩短器，我想知道如何跟踪已经使用我的服务缩短的 URL？例如，tinyurl 为相同的长 URL 生成相同的小 URL，而不管是谁创建的。如
magento 获取 Base Url 、 Skin Url 、 Media Url 、 Js Url 、 Store Url 和 Current Url 以确保安全
我是 magento 的新手。我正在开发一个模块。为此，我有一些要显示链接的 css 和 js 文件。我目前有类似的链接 getSkinUrl('module_tryouts/css/jquery.
url-rewriting - URL 重写 - 重定向到不同的端口并使用映射更改 URL
我想基于 HTTP_URL 重写 URL 以重定向到不同的端口，同时保留其余的 URL 和查询字符串(如果指定)。例如， http://host/john/page.aspx 应该重定向到 http:
url - Grails URL 映射和 URL 中的斜杠字符
我遇到了以下问题: 我的 Grails (2.2.0) 应用程序具有以下 URL 映射: "/api/clientQuote/$labcode/$cliCode/$quoCode"(controlle
url - SharePoint 中 URL 类型字段的长 URL
我有一个很长的 URL，它不适合 URL 字段。它一直在修剪。该怎么办？有没有办法增加 SharePoint 2010 中的 URL 字段字符限制？或者解决方法来容纳长 URL。例如，以下 URL
url-shortener - URL 缩短器如何保证 URL 不会过期？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
url - 从文件 URL 查找应用程序脚本发布的 URL - 按发布的 Web 应用程序 URL 搜索文件
我们从客户以前的开发人员那里继承了相当多的 Google Apps 脚本项目。 Apps 脚本通过嵌入式小部件部署在 Google 网站 (sites.google.com) 的各个页面上。每当我们需
url - 绝对 url、相对 url，以及...？
我正在编写一些文档，但遇到了一些词汇问题: http://www.example.com/en/public/img/logo.gif 被称为“绝对”网址，对吗？ ../../public/img/l
url - 从文件 URL 查找应用程序脚本发布的 URL - 按发布的 Web 应用程序 URL 搜索文件
我们从客户以前的开发人员那里继承了相当多的 Google Apps 脚本项目。 Apps 脚本通过嵌入式小部件部署在 Google 网站 (sites.google.com) 的各个页面上。每当我们需

首页

博学

6Ren·AI

商城

http - 哪一部分从 url 中省略了哈希片段或者为什么爬虫不简单地发送片段？