gpt4 book ai didi

Linux PdfToText 函数返回空白文本文件

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:00:11 26 4
gpt4 key购买 nike

我使用了一个 linux 函数将 PDF 文件列表转换为文本。

命令:

pdftotext -htmlmeta

这适用于我的大部分文件。

但对于其中的一小部分,这会返回一个空白文本文件。

我不成功的完整 pdf 文件没有加密,没有用户/密码保护,也不是只读的。

最佳答案

将 PDF 转换为文本不是一个明确定义的过程。它可以很好地工作,也可以根本不工作,具体取决于 PDF 输入。

这是为什么?因为 PDF 的任务主要是表示文档的外观,而不是文本内容。 PDF 可以是任何内容,从带有位置信息的纯文本到文本字母字形的纯图形。在后一种情况下,需要对输入运行 OCR 才能接收文本信息。这不是通过 pdftotext 等工具完成的。

有时 PDF 中的文本分散在整个文件中,例如。 G。因为首先在 PDF 中提到了所有标准字体字母,然后在文件的后面提到了所有斜体字体字母(当然有位置信息,所以光学表示的读者不会注意到这一点,即使标准和斜体在页面上的整个文本中混合使用)。将这些乱七八糟的内容重新整理成流畅的文本是一项重大任务,但很少有转换器能够胜任。

所以我猜你所能做的就是尝试更多的 PDF 到文本的转换器(有些比其他的更好,有些只对某些特定的输入更好)或者看看你可以从 PDF 以外的其他来源获取文本文件。

关于Linux PdfToText 函数返回空白文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21111199/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com