gpt4 book ai didi

python - 在Python中处理.doc文件并获取有限的字符列表

转载 作者:太空宇宙 更新时间:2023-11-03 18:26:39 24 4
gpt4 key购买 nike

我知道.doc文件无法在python中直接读取。因此,当我使用 os.open() 和 os.read() 在 python 中读取它时,无论实际文档有多长,我都会得到以下结果,我想要知道这些字符是什么?

b'\xd0\xcf\x11\xe0\xa1\xb1'

最佳答案

这是 OLECF 文件的签名:

http://www.forensicswiki.org/wiki/OLE_Compound_File#File_signature

OLECF 用于存储:

  • Microsoft Office 97-2003 文档:
    • Word 文档 (DOC)
    • Excel 电子表格 (XLS)
    • PowerPoint 演示文稿 (PPT)
  • MSN(工具栏)(C:\Documents and Settings\%USERNAME%\Local Settings\Application - Data\Microsoft\MSNe\msninfo.dat)
  • 跳转列表
  • StickyNotes.snt
  • Thumbs.db
  • Windows 安装程序 (.msi) 和补丁文件 (.msp)
  • Windows 搜索 (srchadm.msc)

有关详细信息,请参阅 Compound Binary File Specification

话虽如此,读取 .doc 文件并不是从 MS Word 文件中提取文本的简单方法。您可以尝试python-docx如果您正在处理的文件是 .docx 文件,则使用库。

关于python - 在Python中处理.doc文件并获取有限的字符列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23059681/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com