gpt4 book ai didi

c# - 提取 PDF-itextsharp 中表示为图像的文本

转载 作者:行者123 更新时间:2023-11-30 20:57:14 24 4
gpt4 key购买 nike

我正在使用 ITextSharp 从 PDF 文件中提取文本,我已经成功提取了我感兴趣的部分文本,但是当我继续提取“文本”时,我注意到一些文本WORDS(在使用 itextsharp 从整个页面中提取整个文本时我无法将其作为文本获取)实际上表示为图像。 Adobe Reader 已经向我证实了这一点。因此,简而言之:如何提取 PDF 图像对象中包含的文本?我是否必须提取图像并找到另一种方法将其转换为文本?这对我来说是一个非常糟糕的行星排列..有人遇到过这个问题吗?

最佳答案

我会说是的,你必须找到另一种方法:如果 pdf 中的“文本”实际上根本不在文本层中,而只是代表一些文本的图像,你将不得不提取图像,然后在图像上运行 OCR(光学字符识别,从图像生成文本的术语)。 ITextSharp 不是 OCR 引擎。 (但如果您看的话,确实存在一些免费的 OCR 引擎。)

关于c# - 提取 PDF-itextsharp 中表示为图像的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16987300/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com