gpt4 book ai didi

python - 使用python从多个powerpoint文件中提取文本

转载 作者:太空宇宙 更新时间:2023-11-03 12:56:31 25 4
gpt4 key购买 nike

我正在尝试寻找一种方法来查看文件夹并搜索该文件夹中所有 powerpoint 文档的内容以查找特定字符串,最好使用 Python。找到这些字符串后,我想报告该字符串之后的文本以及找到它的文档。我想编译这些信息并将其报告为 CSV 文件。

到目前为止,我只遇到了 olefil 包,https://bitbucket.org/decalage/olefileio_pl/wiki/Home .这提供了特定文档中包含的所有文本,这不是我想要做的。请帮忙。

最佳答案

实际工作

如果要提取文本:

  • 从 pptx 导入演示文稿(pip 安装 python-pptx)
  • 对于目录中的每个文件(使用 glob 模块)
  • 查看每张幻灯片以及每张幻灯片中的每个形状
  • 如果有带有text属性的shape,打印shape.text

from pptx import Presentation
import glob

for eachfile in glob.glob("*.pptx"):
prs = Presentation(eachfile)
print(eachfile)
print("----------------------")
for slide in prs.slides:
for shape in slide.shapes:
if hasattr(shape, "text"):
print(shape.text)

关于python - 使用python从多个powerpoint文件中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39418620/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com