gpt4 book ai didi

grep - 命令行将目录(和子目录)中的所有 .docx 转换为文本文件并写入新文件

转载 作者:行者123 更新时间:2023-12-01 23:22:43 26 4
gpt4 key购买 nike

我想从命令行将目录(和子目录)中的所有 .docx 文件转换为文本文件(这样我可以在这些文件上使用 grep after )。我发现了这个

unzip -p tutu.docx word/document.xml | sed -e 's/<\/w:p>/\n/g; s/<[^>]\{1,\}>//g; s/[^[:print:]\n]\{1,\}//g'

here效果很好,但它会在终端中发送文件。我想将新的文本文件(例如 .txt)写入与 .docx 文件相同的目录中。我想要一个脚本来递归地执行此操作。

我有这个,使用反词,可以对 .doc 文件执行我想要的操作,但它不适用于 .docx 文件。

find . -name '*.doc' | while read i; do antiword -i 1 "${i}" >"${i/doc/txt}"; done

我尝试混合两者,但没有成功...能够同时执行这两项操作的命令行将不胜感激!

谢谢

最佳答案

您可以使用pandoc转换 docx 文件。它不支持 .doc 文件,因此您需要 pandoc 和 antiword。

重用 while 循环:

find . -name '*.docx' | while read i; do pandoc --from docx --to plain "${i}" >"${i/docx/txt}"; done

关于grep - 命令行将目录(和子目录)中的所有 .docx 转换为文本文件并写入新文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41658284/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com