gpt4 book ai didi

http - 当 url 重定向到其他域时,我应该考虑 robots.txt 吗?

转载 作者:可可西里 更新时间:2023-11-01 15:29:29 25 4
gpt4 key购买 nike

我想抓取 medium.com 上的某个网站,自定义域。(例如,https://uber-developers.news/)

这些网站总是重定向到“medium.com”,然后返回到该网站。但问题来了,medium.com 的重定向 url 被其 robots.txt 禁止。

这里是重定向的方式。

  1. https://uber-developers.news/

  2. https://medium.com/m/global-identity?redirectUrl=https://uber-developers.news/

  3. https://uber-developers.news/?gi=e0f8caa9844c

问题出在第二个 url“https://medium.com/m/global-identity?redirectUrl=https://uber-developers.news/”之上,robots.txt 不允许

https://medium.com/robots.txt

User-Agent: *
Disallow: /m/
Disallow: /me/
Disallow: /@me$
Disallow: /@me/
Disallow: /*/*/edit
Allow: /_/
Allow: /_/api/users/*/meta
Allow: /_/api/users/*/profile/stream
Allow: /_/api/posts/*/responses
Allow: /_/api/posts/*/responsesStream
Allow: /_/api/posts/*/related
Sitemap: https://medium.com/sitemap/sitemap.xml

我应该考虑第二个 url 的 robots.txt 吗?

感谢阅读。

最佳答案

robot.txt 文件只是指示爬虫应该做什么,但绝不会禁止爬虫做不同的事情。 Medium 所做的只会阻止礼貌和尊重的爬虫。

您需要遵循重定向(例如,如果您使用的是 CURL,则有一个选项),您将到达所需的页面。但如果你大规模地这样做,Medium 可能不会对此感到满意。

关于http - 当 url 重定向到其他域时,我应该考虑 robots.txt 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47067961/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com