gpt4 book ai didi

common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度

转载 作者:行者123 更新时间:2023-12-01 19:38:50 26 4
gpt4 key购买 nike

我想从 Amazon S3 下载 WAT 存档段的子集。

背景:

搜索 http://index.commoncrawl.org 处的 Common Crawl 索引会生成包含有关 AWS S3 上 WARC 文件位置信息的结果。例如,搜索 url=www.celebuzz.com/2017-01-04/*&output=json 会产生 JSON 格式的结果,其中之一是


{
“urlkey”:“com,celebuzz)/2017-01-04/watch-james-corden-george-michael-tribute”,
...
“文件名”:“爬网数据/CC-MAIN-2017-34/segments/1502886104631.25/warc/CC-MAIN-20170818082911-20170818102911-00023.warc.gz”,
...
“偏移量”:“504411150”,
“长度”:“14169”,
...
}

filename 条目指示哪个归档段包含该特定页面的 WARC 文件。这个存档文件很大;但幸运的是,该条目还包含 offsetlength 字段,它们可用于请求包含存档段相关子集的字节范围(例如,参见 lines 22-30 in this gist ) .

我的问题:

给定 WARC 文件段的位置,我知道如何构造相应的 WAT 归档段的名称(例如,参见 this tutorial )。我只需要 WAT 文件的一个子集,因此我想请求一定范围的字节。但是如何找到WAT归档段对应的偏移量和长度呢?

我已经检查了 Common Crawl 索引服务器的 API documentation,但我不清楚这是否可能。但如果是的话,我会发布这个问题。

最佳答案

通用爬网索引不包含 WAT 和 WET 文件的偏移量。因此,唯一的方法是在整个 WAT/WET 文件中搜索所需的记录/URL。最终,可以估计偏移量,因为 WARC 和 WAT/WET 文件中的记录顺序是相同的。

关于common-crawl - 从 Common Crawl 索引服务器获取 WAT 存档子集的偏移量和长度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45920527/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com