gpt4 book ai didi

html - 页面地址中的 UTF-8 编码,搜索引擎爬虫的问题

转载 作者:太空宇宙 更新时间:2023-11-04 13:28:57 25 4
gpt4 key购买 nike

我们正在维护一个在某些页面地址中使用字母 æøå 的网站。到目前为止,除了早期的一些 IE 问题外,这一切都很好。过去几周我们遇到的问题是搜索引擎爬虫,尤其是 Bing,似乎一遍又一遍地对字母进行编码。

因此当爬虫试图访问地址 /butikk/m%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2% 时我们得到 404 错误80%A0%C3%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%A2%E2%82%AC%C5%A1%C3%83%E2%80% 9A%C3%82%C2%A3%C3%83%C6%92%C3%86%E2%80%99%C3%83%C2%A2%C3%A2%E2%80%9A%C2%AC% C3%82%C2%A0%C3%83%C6%92%C3%82%C2%A2%C3%83%C2%A2%C3%A2%E2%82%AC%C5%A1%C3%82% C2%AC%C3%83%C2%A2%C3%A2%E2%82%AC%C5%BE%C3%82%C2%A2%C3%83%C6%92%C3%86%E2%80% 99%C3%83%E2%80%A0%C3%A2%E2%82%AC%E2%84%A2%C3%83%C6%92%C3%A2%E2%82%AC%C5%A1% C3%83%E2%80%9A%C3%82%C2%A2%C3%83%C6%92%C3%86%E2%80%99%C3%83%C2%A2%C3%A2%E2% 80%9A%C2%AC%C3%85%C2%A1%C3%83%C6%92%C3%A2%E2%82%AC%C5%A1%C3%83%E2%80%9A%C3% 82%C2%B8bler,而不是 /butikk/møbler。使用 /butikk/m%c3%b8bler 也可以让您到达正确的页面。当我们使用 Play Framework 时,我们也会遇到站点错误,因为我们的 Controller 不能超过 250 个字符,但这不是这里的真正问题。

最初,站点上没有站点地图。我们添加了一个带有 UTF-8 编码地址的地址,希望这会引导机器人走上正确的道路,但到目前为止还没有。

那么有没有人遇到过类似的问题并解决了它,或者对我们可以做些什么来让 Bing Bot 使用正确的地址有一些建议?任何帮助将不胜感激。

添加信息:查看 Bing Webmaster Tools,我可以看到 Bing 已经索引了正确的地址,以及一个带有“Ô而不是“ø”的版本。因此,我的问题有望通过从索引中删除错误地址来解决。

最佳答案

最好的建议是在文件名/链接/地址中省略特殊字符。几年前,我遇到过类似的问题,链接包含 ä、ö、ü,通过简单地删除特殊字符并将其替换为标准 UTF-8 字符即可解决。

关于html - 页面地址中的 UTF-8 编码,搜索引擎爬虫的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18953759/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com