gpt4 book ai didi

search-engine - CommonCrawl : How to find a specific web page?

转载 作者:行者123 更新时间:2023-12-04 05:44:24 27 4
gpt4 key购买 nike

我正在使用 CommonCrawl 来恢复我应该实现但没有实现的页面。

在我的理解中,Common Crawl Index 提供对 Common Crawl 存储的所有 URL 的访问。因此,如果实现了 URL,它应该给我一个答案。

一个简单的脚本从可用爬网下载所有索引:

./cdx-index-client.py -p 4 -c CC-MAIN-2016-18 *.thesun.co.uk --fl url -d CC-MAIN-2016-18
./cdx-index-client.py -p 4 -c CC-MAIN-2016-07 *.thesun.co.uk --fl url -d CC-MAIN-2016-07
... and so on

之后我有 112mb 的数据和简单的 grep:
grep "50569" * -r
grep "Locals-tell-of-terror-shock" * -r

页面不存在。我错过了什么吗?该页面于 2006 年发布并于 2016 年 6 月删除。所以我认为 CommonCrawl 应该已经实现了它们?

更新 : 感谢 Sebastian,留下两个链接...
两个网址是:
  • http://www.thesun.co.uk/sol/homepage/news/50569/Locals-tell-of-terror-shock.html
  • http://www.thesun.co.uk/sol/homepage/news/54032/Sir-Ians-raid-apology.html

  • 他们甚至提出了一个“URL 搜索工具”,它用 502 - Bad Gateway 来回答......

    最佳答案

    您可以使用 AWS Athena 像 SQL 一样查询 Common crawl index 来查找 URL,然后使用偏移量、长度和文件名来读取代码中的内容。在此处查看详细信息 - http://commoncrawl.org/2018/03/index-to-warc-files-and-urls-in-columnar-format/

    enter image description here

    关于search-engine - CommonCrawl : How to find a specific web page?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38869741/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com