python - 在 python 中逐行迭代大型 .xz 文件-6ren

python - 在 python 中逐行迭代大型 .xz 文件

转载作者：行者123 更新时间：2023-12-01 18:27:58

26

4

我有一个很大的 .xz 文件(几千兆字节)。它充满了纯文本。我想处理文本以创建自定义数据集。我想逐行阅读它，因为它太大了。有人知道如何做吗？

我已经尝试过这个 How to open and read LZMA file in-memory但它不起作用。

编辑:我收到此错误“ascii”编解码器无法解码位置 0 中的字节 0xfd:序数不在范围内(128)

在 for line in uncompressed: 行上，来自链接

EDIT2:我的代码(使用 python 3.5)

with open(filename) as compressed:
    with lzma.LZMAFile(compressed) as uncompressed:
        for line in uncompressed:
            print(line)

最佳答案

几周前我也遇到过同样的问题。这个片段对我有用:

import lzma
with lzma.open('filename.xz', mode='rt') as file:
    for line in file:
       print(line)

这假设压缩文件中的文本数据采用 utf-8 编码(我的数据就是这种情况)。函数lzma.open()中有一个encoding参数，它允许您根据需要设置其他编码

编辑(在您自己编辑之后):尝试在 lmza.open() 中强制 encoding='utf-8'

关于python - 在 python 中逐行迭代大型 .xz 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49348091/

26

4

0

文章推荐： java - 这两个java.io.File线程安全问题是否被规避了？

文章推荐： ios - IOS NSDateFormatter问题

文章推荐： objective-c - 在objective-C中以编程方式为tableView创建导航栏

xz - `xz` 的多处理器支持？
有没有办法传播xz跨多个 CPU 的压缩工作？我意识到这对于 xz 来说似乎是不可能的本身，但是否还有其他实用程序可以实现相同的压缩算法，从而提高处理器利用率？我将在具有 16 个以上处理器的系统上的
linux - 如何在执行 tar 时重定向 xz 的正常 stdout | xz？
我需要使用像 xz 这样的压缩器来压缩巨大的 tar 文件。我完全了解之前的问题，例如 Create a tar.xz in one command和 Utilizing multi core fo
compression - 用一个命令创建 tar.xz
我正在尝试用一个命令创建一个 .tar.xz 压缩存档。具体语法是什么？我已经尝试过tar cf - file | xz file.tar.xz，但这不起作用。最佳答案对xz使用-J压缩选项。并
javascript - 在客户端读取 xz 文件
我在服务器上有很大的 json 文件，我用 xz 压缩了这些文件。我认为我最好请求它们，即压缩，并在客户端的 javascript 中解压缩它们。我正在尝试使用 LZMA-JS库，但我无法让它工作。
ios - 在 XZ 平面上拖动对象
我正在开发一款增强现实应用，我希望能够在空间中拖动一个对象。我在 SO 中找到的解决方案的问题是，建议使用 projectPoint/unprojectPoint 的解决方案是它们沿 XY 平面产生运
linux - 找到 XZ 流的结尾
我目前正在尝试提取嵌入在内核镜像中的初始 RAM 文件系统，对其进行修改，然后用它重新打包内核镜像。您可以搜索 GitHub 并找到几个执行此操作的项目 here .我对这些脚本的问题是，它们非常具体
windows - 在命令行创建一个 tar.xz 文件
如何在 Windows 上将 tar 文件压缩为 tar.xz 文件？我将我的文件夹转换成一个 tar 文件，如下所示: 选择文件右键单击突出显示的项目之一点击添加到存档从存档格式下拉菜单中选
r - 如何读取 .tar.xz 文件？
我在这里下载了 Gwern Branwen 数据集:https://www.gwern.net/DNM-archives 我正在尝试读取 R 中的数据集，但遇到了很多麻烦。我试图打开名为“1776.t
docker - Docker内部版本:xz(stdin):无法识别文件格式
嗨，总的Docker noob在这里，我可以运行一个依赖项，以便使此错误消失吗？ Step 19/40 : RUN curl -OL https://www.haskell.org/ghc/d
python - Tarfile 创建 xz 文件
我注意到 tarfile 没有 w:xz 选项或类似的东西，有什么方法可以创建 xz 文件吗？我在 python 中有这段代码 dir=tkFileDialog.askdirectory(initia
linux - 如何解压缩 .tar.xz 文件？
有一个扩展名为 .tar.xz 的文件:wkhtmltox-linux-i386_0.12.0-03c001d.tar.xz 解压缩它的 linux 命令是什么？最佳答案来自 Ubuntu 网站
python - 如何一次性解压包含多个文件夹/文件的 .xz 文件？
我正在尝试解压缩一个 .xz 文件，其中包含一些文件夹和文件。我没有看到使用 lzma 模块执行此操作的直接方法。这就是我所看到的解压缩方法: In [1]: import lzma In [2]:
python - 在 python 中逐行迭代大型 .xz 文件
我有一个很大的 .xz 文件(几千兆字节)。它充满了纯文本。我想处理文本以创建自定义数据集。我想逐行阅读它，因为它太大了。有人知道如何做吗？我已经尝试过这个 How to open and read
postgresql - 使用 xz 恢复 PSQL 数据库文件
我创建了db的备份文件psql.bak.xz，如何将这个文件直接恢复到db(不使用unxz)？我用这个命令来压缩文件: pg_dump 2016 | xz > backups/psql.bak.xz
python - 如何设置 XZ 文件的 tarfile 的压缩级别？
在 Python 中，可以创建 xz tarfile: handle = tarfile.open(dest, 'w:xz') 但是这不会设置压缩级别。是否可以使用 tarfile 设置 XZ 压缩
c - 在 C 代码中解压 .xz 文件
我的问题很简单。有没有可能从 C 代码中解压打包的 .xz 文件？我可能会调用一些默认的 Linux 集成程序来为我解压它，但它到底是如何工作的呢？我调用外部函数，然后以某种方式直接返回到提取文件的程
java - 如何在 Java 中使用 xz 压缩时获得统一压缩？
我正在尝试用 Java 进行 xz 压缩。使用 xz 1.5 压缩库、commons io 2.4 库和 commons compress 1.8.1 库。我尝试运行下面的代码，结果非常不一致。文本超
java - 使用 XZ Java for android 获取提取百分比
我正在使用 XZ Java 库，用于在 Android 上提取大小约为 16MB 的 .xz 文件。我将提取/解压缩代码作为 AsyncTask 运行，因此，我想通过 onProgressUpdate
android - 找不到类 'org.tukaani.xz.LZMAInputStream'
我使用库 apache commons compress 1.9 和 x.z-1.4 来提取 7zip 文件。我在2个过程中使用了它。首先，我通过WIFI下载7zip文件，下载完成后，我解压它，它成功
bash - 如何将进度条添加到 somearchive.tar.xz 提取
我想通过运行压缩包提取至少打印 # 个提取的文件 xz -dc /path/to/somearchive.tar.xz | sudo tar xvpf - -C /path/to/some_direc

首页

博学

6Ren·AI

商城

python - 在 python 中逐行迭代大型 .xz 文件