gpt4 book ai didi

python - 从包含文本和图像的 docx 和 pptx 中提取文本内容 - linux

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:04:52 25 4
gpt4 key购买 nike

<分区>

docx 到 txt:

我尝试使用以下代码从 docx 中提取文本。当 docx 有图像时它不起作用。

unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

对于pptx to txt,我找到了一个提取txt的Perl脚本。当 pptx 有图像时它不起作用 - 相同。

我想要提取的 txt 内容以在文档中启用搜索选项。因此,跳过图像并将 docx 文本内容转换为 txt 的命令/脚本甚至会有所帮助!

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com