gpt4 book ai didi

python - 下载 Common crawl 完整索引文件

转载 作者:太空宇宙 更新时间:2023-11-04 01:04:36 24 4
gpt4 key购买 nike

下面项目中常用的爬取索引文件

https://github.com/trivio/common_crawl_index/blob/master/bin/remote_copy

mmap = BotoMap(s3_anon, src_bucket, '/common-crawl/projects/url-index/url-index.1356128792')

是一个partial one.

我希望在我的项目中使用完整的索引文件(APRIL-2015 爬网数据),该项目以上述项目为基础。

我在哪里可以下载整个索引文件?

Here 汤姆·莫里斯说

The index files which are used by the index service are also available for download.

最佳答案

公共(public)抓取索引文件在 s3://commoncrawl/cc-index/collections/ 上公开可用

您可以通过 aws 命令行查看所有可用的爬网索引:aws s3 ls s3://commoncrawl/cc-index/collections/

2015 年 4 月的索引文件位于 s3://commoncrawl/cc-index/collections/CC-MAIN-2015-18/indexes/

如果你想通过http协议(protocol)下载索引*.gz文件,你可以这样做:

https://commoncrawl.s3.amazonaws.com/cc-index/collections/CC-MAIN-2015-18/indexes/cdx-00000.gz

cdx文件主要从cdx-00000.gzcdx-00299.gz,所以完整的索引包含在300个文件中。

关于python - 下载 Common crawl 完整索引文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31115625/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com