c# - 我们如何使用带空格的 itextsharp 从 pdf 中提取文本？-6ren

c# - 我们如何使用带空格的 itextsharp 从 pdf 中提取文本？

转载作者：行者123 更新时间：2023-11-30 13:19:42

29

4

我正在使用以下方法逐行提取 pdf 文本。但问题是，它不是阅读文字和数字之间的空间。有什么解决方案？？

我只想创建一个字符串列表，列表对象中的每个字符串都有一个来自 pdf 的文本行，因为它在 pdf 中包含空格。

public void readtextlinebyline(string filename)   {


        List<string> strlist = new List<string>();
        PdfReader reader = new PdfReader(filename);
        string text = string.Empty;
        for (int page = 1; page <= 1; page++)
        {

            text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";

        }
        reader.Close();
        string[] words = text.Split('\n');
        foreach (string word in words)
        {
            strlist.Add(word);
        }

        foreach (string st in strlist)
        {
            Response.Write(st +"<br/>");
        }

   }

我也通过将策略更改为 SimpleTextExtractionStrategy 来尝试此方法，但它也不适合我。

最佳答案

关于为什么 iText(Sharp) 或其他 PDF 文本提取器有时无法正确识别单词之间的空格的背景，已在 this answer to "itext java pdf to text creation" 中进行了解释。 :这些“空格”不一定是使用空格字符创建的，而是使用创建小间隙的操作创建的。不过，这些操作也用于其他目的(不打断单词)，因此文本提取器必须使用试探法来决定这样的间隙是否是一个单词断开...

这尤其意味着您永远无法获得 100% 安全的断字检测。

不过，您可以做的是改进所使用的启发式方法。

iText 和 iTextSharp 标准文本提取策略，例如如果

a) 有一个空格字符或者

b) 至少有半个空格字符的间隙。

项目 a 肯定会成功，但项目 b 在文本密集的情况下可能经常失败。 answer referenced above 问题的 OP使用空格字符的四分之一宽度获得了相当好的结果。

您可以通过复制和更改您选择的文本提取策略来调整这些标准。

在 SimpleTextExtractionStrategy 中，您会发现此条件嵌入在 renderText 方法中:

if (spacing > renderInfo.GetSingleSpaceWidth()/2f){
    AppendTextChunk(' ');
}

在 LocationTextExtractionStrategy 的情况下，此标准同时已放入其自身的方法中:

/**
 * Determines if a space character should be inserted between a previous chunk and the current chunk.
 * This method is exposed as a callback so subclasses can fine tune the algorithm for determining whether a space should be inserted or not.
 * By default, this method will insert a space if the there is a gap of more than half the font space character width between the end of the
 * previous chunk and the beginning of the current chunk.  It will also indicate that a space is needed if the starting point of the new chunk 
 * appears *before* the end of the previous chunk (i.e. overlapping text).
 * @param chunk the new chunk being evaluated
 * @param previousChunk the chunk that appeared immediately before the current chunk
 * @return true if the two chunks represent different words (i.e. should have a space between them).  False otherwise.
 */
protected bool IsChunkAtWordBoundary(TextChunk chunk, TextChunk previousChunk) {
    float dist = chunk.DistanceFromEndOf(previousChunk);
    if(dist < -chunk.CharSpaceWidth || dist > chunk.CharSpaceWidth / 2.0f)
        return true;
    return false;
}

将其放入其自己的方法中的目的是仅需要对策略进行简单的子类化并重写该方法以调整启发式标准。这在等效的 iText Java 类的情况下工作正常，但不幸的是，在移植到 iTextSharp 期间，没有 virtual 被添加到声明中(从版本 5.4.4 开始)。因此，目前复制整个策略对于 iTextSharp 仍然是必要的。

@Bruno 你可能想把这件事告诉 iText -> iTextSharp 移植团队。

虽然您可以在这些代码位置微调文本提取，但您应该知道，您不会在这里找到 100% 的标准。一些原因是:

在密集设置的文本中，单词之间的间隙可以小于字距调整或单词内部某些光学效果的其他间隙。因此，这里没有放之四海而皆准的因素。
在根本不使用空格字符的 PDF 中(因为您始终可以使用间隙，这是可能的)，“空格字符的宽度”可能是某个随机值或根本无法确定!
有一些有趣的 PDF 滥用空格字符宽度(可以随时单独拉伸(stretch)以进行后续操作)来进行一些表格格式化，同时使用间隙进行断字。在这样的 PDF 中，不能认真地使用空格字符的当前宽度值来确定分词符。
有时您会发现一行中的单个单词被打印出来以强调。大多数启发式方法可能会将这些解析为单字母单词的集合。

通过考虑所有字符之间的实际视觉自由空间(使用 PDF 渲染或字体信息分析机制)，您可以获得比 iText 启发式方法和使用其他常量从中派生的启发式方法更好的方法，但是为了获得可感知的改进，您必须投入大量时间。

关于c# - 我们如何使用带空格的 itextsharp 从 pdf 中提取文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16398483/

29

4

0

文章推荐： c# - IPAddress.Any 和 IPAddress.IPv6Any 字段有什么区别？

文章推荐： c# - XNA - 如何从主类以外的类退出游戏？

文章推荐： c# - WebApi 添加另一个 Get 方法

SQL ORDER BY 带 CASE 带 UNION ALL
运行 PostgreSQL(7.4 和 8.x)，我认为这是可行的，但现在我遇到了错误。我可以单独运行查询，它工作得很好，但如果我使用 UNION 或 UNION ALL，它会抛出错误。这个错误:
java - 带 fragment 的抽屉导航(带 ViewPager)重新打开时消失
我试图为我的应用程序创建一个导航，使用抽屉导航我的 fragment 之一(HomeFragment)有一个 ViewPager，可容纳 3 个 fragment (Bundy Clock、Annou
android - 带 Activity 的抽屉导航和。带 fragment 的抽屉导航
以我目前正在开发的应用为例: - 它有一个包含多个项目的抽屉导航；现在有两个项目让我感兴趣，我将它们称为 X 和 Y。 X 和 Y 都在单击时显示包含 x 元素或 y 元素列表的 fragment 选
python - 如何将形状为(带、行、列)的数组重新整形为(行、列、带)？
我有一个形状为 (370,275,210) 的 NumPy 数组，我想将其重新整形为 (275,210,370)。我将如何在 Python 中实现这一点？ 370是波段数，275是行数，210是图像包
iphone - 无法与具有子 UIViewController(带 NIB)的父 UIViewController(带 NIB)交互
我们如何与被子 UIViewController 阻止的父 UIViewController(具有按钮)交互。显然，触摸事件不会通过子 Nib 。 (启用用户交互) 注意:我正在加载默认和自定义 NI
java - storeedProcedure.registerStoredProcedureParameter，带 out Parameter ref 光标，带 Jpa Eclipse Link
我是 Jpa 新手，我想执行过程我的代码如下 private static final String PERSISTENCE_UNIT_NAME = "todos"; private static
google-compute-engine - 带 LAMP 的 GCE VS 带 Cloud SQL 的 GCE
与安装了 LAMP 的 GCE 相比，选择与 Google Cloud SQL 链接的 GCE 实例有哪些优势？我确定 GCE 是可扩展的，但是安装在其上的 mysql 数据库的可扩展性如何？使用
带*点和不带指针的Golang类型方法？
这个问题在这里已经有了答案: Value receiver vs. pointer receiver (3 个答案) 关闭 3 年前。我刚接触 golang。只是想了解为 Calc 类型声明的两种
R - 日期和分界线的快捷方式，带# -----
我不小心按了一个快捷键，一个非常漂亮的断线出现在日期上。有点像 # 23 Jun 2010 -------------------- 有人知道有问题的快捷方式吗？？ (我在 mac 上工作!) 在
scala - 带$和字符串插值的Scala正则表达式
我正在Scala中编写正则表达式 val regex = "^foo.*$".r 这很好，但是如果我想做 var x = "foo" val regex = s"""^$x.*$""".r 现在我们有
带/不带命名空间的 XML
以下 XML 文档在技术上是否相同？ James Dean 19 和: James Dean 19 最佳答案这两个文档在语义上是相同的。在 X
带 lapply 的稳健线性回归
我在对数据帧列表运行稳健的线性回归模型(使用 MASS 库中的 rlm)时遇到问题。可重现的示例: var1 <- c(1:100) var2 <- var1*var1 df1 <- data.f
iphone - 带 $ 符号的自定义数字键盘
好的，我有一个自定义数字键盘，可以在标签(numberField)中将数字显示为 0.00，现在我需要它显示 $0.00。 NSString *digit = sender.currentTitle;
macos - 带 Storyboard的基于文档的应用程序自动保存
在基于文档的应用程序中，使用 XIB 文件，创建新窗口时其行为是: 根据最后一个事件的位置进行定位和调整大小 window 。如果最后一个事件窗口仍然可见，则新窗口窗口应该是级联的，这样它就不会直
sql - 带 in 子句的查询中的参数？
我想使用参数进行查询，如下所示: SELECT * FROM MATABLE WHERE MT_ID IN (368134, 181956) 所以我考虑一下 SELECT * FROM MATABLE
sql - 带/不带参数的性能问题
我遇到一些性能问题。我有一个大约有 200 万行的表。 CREATE TABLE [dbo].[M8]( [M8_ID] [int] IDENTITY(1,1) NOT NULL,
javascript - 带 (+) 键的按键功能不起作用
我在 jquery 中的按键功能遇到问题。我不知道为什么按键功能不起作用。我已经使用了正确的 key 代码。在我的函数中有 2 个代码，其中包含 2 个事件键，按一个键表示 (+) 代码 107 和(
android - 带.raw输入的音频波形
我想显示音频波形，我得到了此代码，它需要.raw音频输入并显示音频波形，但是当我放入.3gp，.mp3音频时，我得到白噪声，有人可以帮助我如何使其按需与.3gp一起使用使用.3gp音频运行它。 Inp
php - 带$的stristr
我无法让 stristr 函数返回真值，我相信这是因为我的搜索中有一个 $ 字符。当我这样做时: var_dump($nopricecart); 完整的 $nopricecart 值是 $0 ，我得
algorithm - 带 If 语句的循环的时间复杂度
如果我有这样的循环: for(int i=0;i O(n) 次。所以do some执行了O(n)次。如果做某事是线性时间，那么代码片段的复杂度是O(n^2)。关于algorithm - 带 If 语

首页

博学

6Ren·AI

商城

c# - 我们如何使用带空格的 itextsharp 从 pdf 中提取文本？