gpt4 book ai didi

python - 如何在 python 中检索 office 文件的作者?

转载 作者:太空狗 更新时间:2023-10-30 00:37:13 25 4
gpt4 key购买 nike

标题说明了问题,我想检索其作者信息的 doc 和 docs 文件,以便我可以重组我的文件。

os.stat 仅返回大小和日期时间,真实文件相关信息。
open(filename, 'rb').read(200) 返回许多我无法解析的字符。

有一个名为xlrd 的模块用于读取xlsx 文件。然而,这仍然不允许我阅读 docdocx 文件。我知道新的 office 文件在 non-msoffice 程序上不容易读取,所以如果这不可能,从旧的 office 文件收集信息就足够了。

最佳答案

由于 docx 文件只是压缩的 XML,您可以解压缩 docx 文件并大概从 XML 文件中提取作者信息。不太确定它的存储位置,只是简单地环顾四周让我怀疑它在 docProps/core.xml 中存储为 dc:creator

以下是打开 docx 文件并检索创建者的方法:

import zipfile, lxml.etree

# open zipfile
zf = zipfile.ZipFile('my_doc.docx')
# use lxml to parse the xml file we are interested in
doc = lxml.etree.fromstring(zf.read('docProps/core.xml'))
# retrieve creator
ns={'dc': 'http://purl.org/dc/elements/1.1/'}
creator = doc.xpath('//dc:creator', namespaces=ns)[0].text

关于python - 如何在 python 中检索 office 文件的作者?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7021141/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com