gpt4 book ai didi

http - 比较搜索机器人的 URI?

转载 作者:可可西里 更新时间:2023-11-01 16:46:21 25 4
gpt4 key购买 nike

对于搜索机器人,我正在设计:
* 比较 URI 和
* 判断哪些URI是真正的同一个页面

处理重定向和别名:
案例 1:重定向
案例 2:别名www
案例 3:URL 参数,例如sukshma.net/node#parameter

我有两种方法可以遵循,一种方法是显式检查重定向以捕获案例 #1。另一种方法是“硬编码”别名,例如 www,适用于案例 #2。第二种方法(硬编码)别名很脆弱。 HTTP 的 URL 规范没有提到使用 www 作为别名 (RFC 2616)

我还打算使用 Canonical Meta-tag (HTTP/HTML),但如果我理解正确的话——我不能在所有情况下都依赖该标签。

请分享您自己的经验。您知道用于检测搜索机器人中重复项的引用白皮书实现吗?

最佳答案

构建您自己的网络爬虫是一项 lot of work .考虑检查一些已经可用的开源蜘蛛,比如 JSpider , OpenWebSpidermany others .

关于http - 比较搜索机器人的 URI?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1885672/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com