gpt4 book ai didi

python - 根据 url 从 WARC 文件中检索记录

转载 作者:太空宇宙 更新时间:2023-11-04 00:20:17 25 4
gpt4 key购买 nike

我必须根据 Target-URI 从 *.warc.gz 文件中检索记录。文档说这需要创建外部 CDXJ 索引文件。

我试过以 gzip.open() 打开文件并执行 seek(offset),但查找操作需要相当长的时间(秒) .

是否有其他正确的方法来检索记录。

编辑:我正在使用 warc python 库,它们似乎没有在 warc 文件上提供直接的 f.seek()。

最佳答案

您应该在解压前对文件进行搜索。通常,WARC 文件是逐条记录压缩的,CDXJ 中的偏移量和长度允许裁剪出单个 WARC 记录,然后在单个记录上执行 gzip.open()。有疑问,最好使用图书馆。 Warcio甚至提供了一个命令行工具来通过偏移量提取单个记录:warcio extract xyz.warc.gz offset

关于python - 根据 url 从 WARC 文件中检索记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49377839/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com