gpt4 book ai didi

python - 在 python 中逐行迭代大型 .xz 文件

转载 作者:行者123 更新时间:2023-12-01 18:27:58 26 4
gpt4 key购买 nike

我有一个很大的 .xz 文件(几千兆字节)。它充满了纯文本。我想处理文本以创建自定义数据集。我想逐行阅读它,因为它太大了。有人知道如何做吗?

我已经尝试过这个 How to open and read LZMA file in-memory但它不起作用。

编辑:我收到此错误“ascii”编解码器无法解码位置 0 中的字节 0xfd:序数不在范围内(128)

for line in uncompressed: 行上,来自链接

EDIT2:我的代码(使用 python 3.5)

with open(filename) as compressed:
with lzma.LZMAFile(compressed) as uncompressed:
for line in uncompressed:
print(line)

最佳答案

几周前我也遇到过同样的问题。这个片段对我有用:

import lzma
with lzma.open('filename.xz', mode='rt') as file:
for line in file:
print(line)

这假设压缩文件中的文本数据采用 utf-8 编码(我的数据就是这种情况)。函数lzma.open()中有一个encoding参数,它允许您根据需要设置其他编码

编辑(在您自己编辑之后):尝试在 lmza.open() 中强制 encoding='utf-8'

关于python - 在 python 中逐行迭代大型 .xz 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49348091/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com