- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个很大的 .xz 文件(几千兆字节)。它充满了纯文本。我想处理文本以创建自定义数据集。我想逐行阅读它,因为它太大了。有人知道如何做吗?
我已经尝试过这个 How to open and read LZMA file in-memory但它不起作用。
编辑:我收到此错误“ascii”编解码器无法解码位置 0 中的字节 0xfd:序数不在范围内(128)
在 for line in uncompressed:
行上,来自链接
EDIT2:我的代码(使用 python 3.5)
with open(filename) as compressed:
with lzma.LZMAFile(compressed) as uncompressed:
for line in uncompressed:
print(line)
最佳答案
几周前我也遇到过同样的问题。这个片段对我有用:
import lzma
with lzma.open('filename.xz', mode='rt') as file:
for line in file:
print(line)
这假设压缩文件中的文本数据采用 utf-8 编码(我的数据就是这种情况)。函数lzma.open()
中有一个encoding
参数,它允许您根据需要设置其他编码
编辑(在您自己编辑之后):尝试在 lmza.open()
中强制 encoding='utf-8'
关于python - 在 python 中逐行迭代大型 .xz 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49348091/
有没有办法传播xz跨多个 CPU 的压缩工作?我意识到这对于 xz 来说似乎是不可能的本身,但是否还有其他实用程序可以实现相同的压缩算法,从而提高处理器利用率?我将在具有 16 个以上处理器的系统上的
我需要使用像 xz 这样的压缩器来压缩巨大的 tar 文件。 我完全了解之前的问题,例如 Create a tar.xz in one command和 Utilizing multi core fo
我正在尝试用一个命令创建一个 .tar.xz 压缩存档。具体语法是什么? 我已经尝试过tar cf - file | xz file.tar.xz,但这不起作用。 最佳答案 对xz使用-J压缩选项。并
我在服务器上有很大的 json 文件,我用 xz 压缩了这些文件。我认为我最好请求它们,即压缩,并在客户端的 javascript 中解压缩它们。我正在尝试使用 LZMA-JS库,但我无法让它工作。
我正在开发一款增强现实应用,我希望能够在空间中拖动一个对象。我在 SO 中找到的解决方案的问题是,建议使用 projectPoint/unprojectPoint 的解决方案是它们沿 XY 平面产生运
我目前正在尝试提取嵌入在内核镜像中的初始 RAM 文件系统,对其进行修改,然后用它重新打包内核镜像。您可以搜索 GitHub 并找到几个执行此操作的项目 here .我对这些脚本的问题是,它们非常具体
如何在 Windows 上将 tar 文件压缩为 tar.xz 文件? 我将我的文件夹转换成一个 tar 文件,如下所示: 选择文件 右键单击突出显示的项目之一 点击添加到存档 从存档格式下拉菜单中选
我在这里下载了 Gwern Branwen 数据集:https://www.gwern.net/DNM-archives 我正在尝试读取 R 中的数据集,但遇到了很多麻烦。我试图打开名为“1776.t
嗨,总的Docker noob在这里,我可以运行一个依赖项,以便使此错误消失吗? Step 19/40 : RUN curl -OL https://www.haskell.org/ghc/d
我注意到 tarfile 没有 w:xz 选项或类似的东西,有什么方法可以创建 xz 文件吗?我在 python 中有这段代码 dir=tkFileDialog.askdirectory(initia
有一个扩展名为 .tar.xz 的文件:wkhtmltox-linux-i386_0.12.0-03c001d.tar.xz 解压缩它的 linux 命令是什么? 最佳答案 来自 Ubuntu 网站
我正在尝试解压缩一个 .xz 文件,其中包含一些文件夹和文件。我没有看到使用 lzma 模块执行此操作的直接方法。这就是我所看到的解压缩方法: In [1]: import lzma In [2]:
我有一个很大的 .xz 文件(几千兆字节)。它充满了纯文本。我想处理文本以创建自定义数据集。我想逐行阅读它,因为它太大了。有人知道如何做吗? 我已经尝试过这个 How to open and read
我创建了db的备份文件psql.bak.xz,如何将这个文件直接恢复到db(不使用unxz)? 我用这个命令来压缩文件: pg_dump 2016 | xz > backups/psql.bak.xz
在 Python 中,可以创建 xz tarfile: handle = tarfile.open(dest, 'w:xz') 但是这不会设置压缩级别。 是否可以使用 tarfile 设置 XZ 压缩
我的问题很简单。有没有可能从 C 代码中解压打包的 .xz 文件?我可能会调用一些默认的 Linux 集成程序来为我解压它,但它到底是如何工作的呢?我调用外部函数,然后以某种方式直接返回到提取文件的程
我正在尝试用 Java 进行 xz 压缩。使用 xz 1.5 压缩库、commons io 2.4 库和 commons compress 1.8.1 库。我尝试运行下面的代码,结果非常不一致。文本超
我正在使用 XZ Java 库,用于在 Android 上提取大小约为 16MB 的 .xz 文件。我将提取/解压缩代码作为 AsyncTask 运行,因此,我想通过 onProgressUpdate
我使用库 apache commons compress 1.9 和 x.z-1.4 来提取 7zip 文件。我在2个过程中使用了它。首先,我通过WIFI下载7zip文件,下载完成后,我解压它,它成功
我想通过运行压缩包提取至少打印 # 个提取的文件 xz -dc /path/to/somearchive.tar.xz | sudo tar xvpf - -C /path/to/some_direc
我是一名优秀的程序员,十分优秀!