gpt4 book ai didi

php - 爬虫从url添加参数到链接

转载 作者:可可西里 更新时间:2023-11-01 16:43:43 25 4
gpt4 key购买 nike

我尝试了两种不同的网络爬虫(Sistrix 和 http://ssitemap.com)。两个抓取工具都报告有关 URL 重复内容的错误,例如 //?katID=12 .

事实证明,如果爬虫调用url /projekte/index.php?katID=12它找到了 <a href="/">Home</a>并将其添加为 /?katID=12 的链接.看起来像来自 url 的参数 ?katID=12被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget,我会看到指向 / 的简单 html 链接随心所欲。

我做错了什么吗?服务器配置?

这是抓取工具中的错误还是功能?

最佳答案

我添加了 <link rel="canonical" href="...">到每个页面以帮助抓取工具识别相同的页面。

另见 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394

关于php - 爬虫从url添加参数到链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15768677/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com