gpt4 book ai didi

python - 使用Python从word文档中提取图像

转载 作者:太空宇宙 更新时间:2023-11-03 20:48:13 25 4
gpt4 key购买 nike

如何使用 python 从 Word 文档中提取图像/ Logo 并将其存储在文件夹中。以下代码将 docx 转换为 html,但不会从 html 中提取图像。任何指针/建议都会有很大帮助。

    profile_path = <file path>
result=mammoth.convert_to_html( profile_path)
f = open(profile_path, 'rb')
b = open(profile_html, 'wb')
document = mammoth.convert_to_html(f)
b.write(document.value.encode('utf8'))
f.close()
b.close()

最佳答案

您可以使用docx2txt 库,它将读取您的 .docx 文档并将图像导出到您指定的目录(必须存在)。

!pip install docx2txt
import docx2txt
text = docx2txt.process("/path/your_word_doc.docx", '/home/example/img/')

执行后,您将在 /home/example/img/ 中看到图像,并且变量 text 将具有文档文本。它们将按出现顺序命名为 image1.png ... imageN.png。

注意:Word 文档必须为 .docx 格式。

关于python - 使用Python从word文档中提取图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56428445/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com