gpt4 book ai didi

ms-word - 如何自动将 PDF 转换为 HTML?

转载 作者:行者123 更新时间:2023-12-04 19:41:16 25 4
gpt4 key购买 nike

我在一家出版商工作,正在尝试从我们布局完整的 PDF 中提取内容。我尝试过 pdftohtml、pdftotext、pdfminer 和其他基于 Python 的方法来获取内容,以及从原始 Acrobat 文件保存到 Word、HTML、XML 等。

我不仅需要文本,还需要文本格式。那是因为,例如,我需要文档中的所有蓝色文本。

当我从 Acrobat 保存到 HTML、Word 等时,生成的文件包含页面的屏幕截图,而不是布局文本。当我使用不同的 Python 模块提取文本时,我得到了文本但丢失了文本格式。

我找到的唯一解决方案是手动将 PDF 复制并粘贴到 word 文档中,然后另存为 HTML。我希望将其自动化。

为什么从 Acrobat 复制到 Word 可以实现我无法通过其他方式实现的功能?以前有人遇到过这个问题吗?

最佳答案

也许你可以考虑另一种方法。该软件(https://pdfapi.codeplex.com/)可以直接通过MVS将pdf文件转换为html。如果你会使用MVS,我认为我上面提到的软件对你将pdf文件中的文本转换为可以完美保持格式的html很有用。当然,这只是一个推荐,你可以试试看。

关于ms-word - 如何自动将 PDF 转换为 HTML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17453302/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com