gpt4 book ai didi

web-scraping - 维基解密有一个不寻常的 robots.txt。我可以抓取什么?

转载 作者:行者123 更新时间:2023-12-04 05:09:06 26 4
gpt4 key购买 nike

我正在研究如何为 Wikileaks 编写网络爬虫。

当我到达 https://wikileaks.org/robots.txt 时我所能看到的只是一堆看起来无伤大雅的 HTML,看起来它可能定义了一个主页或其他东西。

我做错了什么吗?为什么有人会把它放在他们的 robots.txt 中?

最佳答案

On 2016-01-03 ,维基解密的 robots.txt 是:

User-Agent: *
Disallow: /talk/

On 2016-01-05 ,它是一个作为纯文本的 HTML 文档。

从以下日期开始的所有抓取 in 2016in 2017似乎显示了同样的无效内容(我只进行了抽查)。

所以,正式来说,现在一切都可以被抓取了。但这显然是他们这边的一个错误,因此有礼貌地尊重他们最后的工作 robots.txt:除了路径以 /talk/ 开头的 URL 之外,所有内容都允许被抓取。

关于web-scraping - 维基解密有一个不寻常的 robots.txt。我可以抓取什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42660048/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com