>for record-6ren">
gpt4 book ai didi

python - 使用python读取warc文件

转载 作者:行者123 更新时间:2023-12-01 03:38:03 26 4
gpt4 key购买 nike

我想读取一个warc文件,我根据this page编写了以下代码但没有打印任何内容!!

>>import warc
>>f = warc.open("01.warc.gz")
>>for record in f:
print record['WARC-Target-URI'], record['Content-Length']

但是,当我编写以下命令时,我得到了结果

>>print f
<warc.warc.WARCFile instance at 0x0000000002C7DE88>

请注意,我的 warc 文件是 Clueweb09 数据集中的文件之一。我提到它是因为this page .

最佳答案

我也遇到了和你一样的问题

经过对模块的一些研究,我找到了解决方案。

尝试使用record.payload.read(),这是完整的示例:

import warc
f = warc.open("01.warc.gz")
for record in f:
print record.payload.read()

另外,我可以说你不仅可以读取 warc 文件,还可以读取 wet 文件。小作弊是将其重命名为 name,其中包含 .warc

亲切的问候

关于python - 使用python读取warc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40099000/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com