- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试使用 zipfile 在 Python 上读取受密码保护的 word 文档。以下代码适用于不受密码保护的文档,但在使用受密码保护的文件时会出错。
try:
from xml.etree.cElementTree import XML
except ImportError:
from xml.etree.ElementTree import XML
import zipfile
psw = "1234"
WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'
PARA = WORD_NAMESPACE + 'p'
TEXT = WORD_NAMESPACE + 't'
def get_docx_text(path):
document = zipfile.ZipFile(path, "r")
document.setpassword(psw)
document.extractall()
xml_content = document.read('word/document.xml')
document.close()
tree = XML(xml_content)
paragraphs = []
for paragraph in tree.getiterator(PARA):
texts = [node.text
for node in paragraph.getiterator(TEXT)
if node.text]
if texts:
paragraphs.append(''.join(texts))
return '\n\n'.join(paragraphs)
当使用受密码保护的文件运行 get_docx_text() 时,我收到以下错误:
追溯(最近的调用最后):
File "<ipython-input-15-d2783899bfe5>", line 1, in <module>
runfile('/Users/username/Workspace/Python/docx2txt.py', wdir='/Users/username/Workspace/Python')
File "/Applications/Spyder-Py2.app/Contents/Resources/lib/python2.7/spyderlib/widgets/externalshell/sitecustomize.py", line 680, in runfile
execfile(filename, namespace)
File "/Applications/Spyder-Py2.app/Contents/Resources/lib/python2.7/spyderlib/widgets/externalshell/sitecustomize.py", line 78, in execfile
builtins.execfile(filename, *where)
File "/Users/username/Workspace/Python/docx2txt.py", line 41, in <module>
x = get_docx_text("/Users/username/Desktop/file.docx")
File "/Users/username/Workspace/Python/docx2txt.py", line 23, in get_docx_text
document = zipfile.ZipFile(path, "r")
File "zipfile.pyc", line 770, in __init__
File "zipfile.pyc", line 811, in _RealGetContents
BadZipfile: File is not a zip file
有没有人有任何建议让这段代码工作?
最佳答案
我不认为这是一个加密问题,原因有二:
创建 ZipFile
对象时不尝试解密。类似 ZipFile.extractall
的方法, extract
, and open
, and read
接受一个包含密码的可选的 pwd
参数,但是对象构造函数/初始化程序没有。
您的堆栈跟踪表明 BadZipFile
在您创建 ZipFile
对象时被引发,在您调用 设置密码
:
document = zipfile.ZipFile(path, "r")
我会仔细查看您正在测试的两个文件之间的其他差异:所有权、权限、安全上下文(如果您的操作系统上有这些)……甚至文件名差异也会导致框架“看不到” "您正在处理的文件。
另外 --- 显而易见的 --- 尝试使用您选择的与 zip 兼容的命令打开加密的 zip 文件。查看它是否真的是 压缩文件。
我通过在 Python 3.1 中打开一个加密的 zip 文件来测试这个,同时“忘记”提供密码。我可以创建 ZipFile
对象(下面的变量 zfile
)而没有任何错误,但是得到了一个 RuntimeError
--- not BadZipFile
异常 --- 当我试图在不提供密码的情况下读取文件时:
Traceback (most recent call last):
File "./zf.py", line 35, in <module>
main()
File "./zf.py", line 29, in main
print_checksums(zipfile_name)
File "./zf.py", line 22, in print_checksums
for checksum in checksum_contents(zipfile_name):
File "./zf.py", line 13, in checksum_contents
inner_file = zfile.open(inner_filename, "r")
File "/usr/lib64/python3.1/zipfile.py", line 903, in open
"password required for extraction" % name)
RuntimeError: File apache.log is encrypted, password required for extraction
我还能够引发 BadZipfile
异常,一次是通过尝试打开一个空文件,一次是通过尝试打开一些我重命名为“.zip”扩展名的随机日志文件文本.这两个测试文件产生了相同的堆栈跟踪,包括行号。
Traceback (most recent call last):
File "./zf.py", line 35, in <module>
main()
File "./zf.py", line 29, in main
print_checksums(zipfile_name)
File "./zf.py", line 22, in print_checksums
for checksum in checksum_contents(zipfile_name):
File "./zf.py", line 10, in checksum_contents
zfile = zipfile.ZipFile(zipfile_name, "r")
File "/usr/lib64/python3.1/zipfile.py", line 706, in __init__
self._GetContents()
File "/usr/lib64/python3.1/zipfile.py", line 726, in _GetContents
self._RealGetContents()
File "/usr/lib64/python3.1/zipfile.py", line 738, in _RealGetContents
raise BadZipfile("File is not a zip file")
zipfile.BadZipfile: File is not a zip file
虽然此堆栈跟踪与您的堆栈跟踪不完全相同 --- 我的调用了 _GetContents
,并且 pre-3.2 的“small f”拼写BadZipfile
--- 但它们非常接近,我认为这就是您要处理的问题。
关于python - 使用 zipfile 读取受密码保护的 Word 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29720587/
我在 ZipFile zipfile = new ZipFile("X"); 中设置 zip 文件 X 的路径时遇到问题。 我不想对路径进行硬编码,使其成为 ZipFile zipfile = new
有文件夹路径: P:\\2018\\Archive\\ 我想以编程方式创建许多 zip 文件,但我从测试开始。我将把这个测试 zip 文件命名为“CO_007_II.zip”并尝试在上面的位置创建:
我有一个 zip 文件,里面可以包含任意数量的 zip 文件(也是递归的)。我需要遍历所有这些。 现在,我有一个将 zipInputStream 和 zipFile 作为参数的函数。问题是;如果我在另
这个问题在这里已经有了答案: Unzip nested zip files in python (7 个答案) 关闭 6 年前。 我一直在互联网上寻找类似的主题,但没有找到任何东西。 我有一个 zi
我正在尝试解压缩发送给我的一些压缩的彩信。问题是有时它有效,而其他时候则无效。当它不起作用时,python zipfile 模块会提示说它是一个错误的 zip 文件。但是使用 unix unzip 命
我想从压缩文件中删除文件的唯一方法是创建一个临时压缩文件而不删除要删除的文件,然后将其重命名为原始文件名。 在 python 2.4 中,ZipInfo 类有一个属性 file_offset,因此可以
我知道,我知道,谁会想在java中压缩或解压缩大文件。完全不合理。暂时不要怀疑,假设我有充分的理由解压缩一个大的 zip 文件。 问题 1:ZipFile有一个bug (bug # 6280693)
目前,我的应用程序将对磁盘上的文件列表执行压缩过程,并允许用户作为备份目的的电子邮件附件发送。 为了具有数据损坏检测能力,我使用以下方法生成校验和 public static long getChec
似乎 zipfile.ZipFile 需要随机访问,而 urllib2 返回的“类似文件”对象不支持该随机访问。 我尝试用 io.BufferedRandom 包装它,但得到: AttributeEr
我试图从 zip 文件获取输入流,然后将其添加到另一个 zip 文件,但它抛出空指针异常。这是我的代码。 ZipParameters parameters = new ZipParame
我正在解压缩 Zip 文件。由于有两种类型的存档 - Zip 和 GZip。 我正在使用以下内容 ZipFile zipFile = new ZipFile(file, ZipFile.OPEN_RE
我很难理解 zipfile 模块的 zipfile.ZIP_DEFLATED 和 zipfile.ZIP_STORED 压缩模式之间的区别。 最佳答案 ZIP_DEFLATED 对应于压缩(或缩小)的
我有一个 1.4GB 的 zip 文件,正在尝试连续生成每个成员。 zipfile 模块不断抛出 BadZipfile 异常,指出 "zipfile.BadZipfile: zipfiles that
我正在尝试将消息(字符串)压缩到 zip 文件中,然后将其设置为 Apache Camel 中交换对象的主体,以便下游服务之一(也使用 Apache Camel)能够使用 exchange.getIn
我正在尝试获取一个 python Zip 模块来压缩数据。 但它所做的只是抛出一个错误: with ZipFile(O_file7,mode='w',compression=ZipFile.ZIP_D
我想获取压缩文件夹内文件的创建日期。 我知道如果没有 zip,这可以通过使用 os.path.getctime() 来实现可以使用 ZipInfo.date_time 提取压缩文件夹内文件的函数和上次
如何在 C# 中提取 ZipFile?(ZipFile 是包含文件和目录) 最佳答案 为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。 来自 here
我有这个 Java 方法来上传文件。我试图通过将该文件夹压缩成一个 zip 文件并上传它来迎合尝试上传文件夹的用户。出于某种原因,就我而言 file.isDirectory()和 file.isFil
我有一个 Path 可以在虚拟文件系统 (jimfs) 上压缩文件,我需要使用 ZipFile 打开这个 zip 文件。 但是 ZipFile 中没有构造函数来获取 Path 作为参数,只有 File
我是一名新手,正在尝试了解如何使用 uuencode 方法。我们有一个表单,只允许上传一个文本文件。现在看起来只有 zip 文件会被上传。我试图包含 uuencode 方法以将字节转换为字符串,这样我
我是一名优秀的程序员,十分优秀!