gpt4 book ai didi

python - 如何从 warc.wet.gz 中提取每一个 payload?

转载 作者:行者123 更新时间:2023-12-05 07:51:48 41 4
gpt4 key购买 nike

我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve 的 warc 解析器 https://github.com/internetarchive/warc

import warc
w = warc.open(fileName)
for record in w:
text = record.payload.read()

但此方法提供的数据还不到负载中的一半数据。是否有任何其他更好的方法可以提供文件中每个有效负载中的所有数据。

最佳答案

warc 库的 gzip 处理有一个错误,导致 warc 无法读取整个 WET 文件。为了克服这个错误,您应该使用 Python 的 gzip 库来动态解压缩文件流,如下所示:

import gzip
import warc
gzip_fobj = gzip.open(wet_file, "r")
warc_fobj = warc.WARCFile(fileobj=gzip_fobj, compress=False)

关于python - 如何从 warc.wet.gz 中提取每一个 payload?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34612691/

41 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com