gpt4 book ai didi

java - 使用itext从pdf中提取数学文本

转载 作者:行者123 更新时间:2023-12-02 04:14:27 27 4
gpt4 key购买 nike

我有一本 pdf 教科书,其中有这样的数学方程:Sample PDF

但是,如果我尝试进行简单的文本提取,我会得到以下内容:V(r) = - 3 - -2R R2这不是图像,它是文本,但我不知道如何保留它的外观并将实际字符放入文本文件中。

最佳答案

您遇到的问题是一个经常遇到的问题。 PDF本质上不关心结构。它没有列、段落、一行文本甚至单词的概念,更不用说具有大量特殊格式的数学公式了。

PDF - 本质上 - 只对将内容放置在页面上的特定位置感兴趣。这也正是它对公式的作用,它将使用公式所需的字符和图形,并将它们放在页面上的某个位置。无需任何额外的知识,您就可以在事后使用这些知识来弄清楚这些字符和图形甚至属于一个公式;更不用说在进行文本提取时重建它了。

另外两点:

1) 如果您分享一个此类 PDF 文档的示例,我们可以看看其中是否有一些有用的信息,可以用来以更有效的方式提取该公式;但机会几乎为零。

2)您还必须从您的角度定义什么是“有用的方法”。公式不能很好地转换为纯文本文件,因此您可能需要 MathML 之类的东西来存储它们。

关于java - 使用itext从pdf中提取数学文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33467000/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com