gpt4 book ai didi

javascript - 如何在爬行时绕过robots.txt

转载 作者:行者123 更新时间:2023-11-28 13:27:23 27 4
gpt4 key购买 nike

任何人都可以告诉我是否有任何方法可以在抓取时忽略或绕过 robots.txt。有没有办法修改脚本,使其忽略robots.txt并继续抓取?

或者还有其他方法可以达到同样的效果吗?

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

最佳答案

如果您正在编写爬虫程序,那么您就可以完全控制它。你可以让它表现得很好,也可以让它表现得很糟糕。

如果您不希望您的抓取工具尊重 robots.txt,那么只需编写它,这样它就不会尊重。您可能正在使用自动尊重 robots.txt 的库,如果是这样,那么您将必须禁用它(这通常是您在调用库时传递给库的选项)。

<小时/>

没有办法使用客户端 JavaScript 来使读取嵌入 JS 的页面的爬虫停止尊重 robots.txt。

关于javascript - 如何在爬行时绕过robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28070312/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com