gpt4 book ai didi

c# - 我们如何使用带空格的 itextsharp 从 pdf 中提取文本?

转载 作者:行者123 更新时间:2023-11-30 13:19:42 29 4
gpt4 key购买 nike

我正在使用以下方法逐行提取 pdf 文本。但问题是,它不是阅读文字和数字之间的空间。有什么解决方案??

我只想创建一个字符串列表,列表对象中的每个字符串都有一个来自 pdf 的文本行,因为它在 pdf 中包含空格。

public void readtextlinebyline(string filename)   {


List<string> strlist = new List<string>();
PdfReader reader = new PdfReader(filename);
string text = string.Empty;
for (int page = 1; page <= 1; page++)
{

text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";

}
reader.Close();
string[] words = text.Split('\n');
foreach (string word in words)
{
strlist.Add(word);
}

foreach (string st in strlist)
{
Response.Write(st +"<br/>");
}

}

我也通过将策略更改为 SimpleTextExtractionStrategy 来尝试此方法,但它也不适合我。

最佳答案

关于为什么 iText(Sharp) 或其他 PDF 文本提取器有时无法正确识别单词之间的空格的背景,已在 this answer to "itext java pdf to text creation" 中进行了解释。 :这些“空格”不一定是使用空格字符创建的,而是使用创建小间隙的操作创建的。不过,这些操作也用于其他目的(不打断单词),因此文本提取器必须使用试探法来决定这样的间隙是否是一个单词断开...

这尤其意味着您永远无法获得 100% 安全的断字检测。

不过,您可以做的是改进所使用的启发式方法。

iText 和 iTextSharp 标准文本提取策略,例如如果

a) 有一个空格字符或者

b) 至少有半个空格字符的间隙。

项目 a 肯定会成功,但项目 b 在文本密集的情况下可能经常失败。 answer referenced above 问题的 OP使用空格字符的四分之一宽度获得了相当好的结果。

您可以通过复制和更改您选择的文本提取策略来调整这些标准。

SimpleTextExtractionStrategy 中,您会发现此条件嵌入在 renderText 方法中:

if (spacing > renderInfo.GetSingleSpaceWidth()/2f){
AppendTextChunk(' ');
}

LocationTextExtractionStrategy 的情况下,此标准同时已放入其自身的方法中:

/**
* Determines if a space character should be inserted between a previous chunk and the current chunk.
* This method is exposed as a callback so subclasses can fine tune the algorithm for determining whether a space should be inserted or not.
* By default, this method will insert a space if the there is a gap of more than half the font space character width between the end of the
* previous chunk and the beginning of the current chunk. It will also indicate that a space is needed if the starting point of the new chunk
* appears *before* the end of the previous chunk (i.e. overlapping text).
* @param chunk the new chunk being evaluated
* @param previousChunk the chunk that appeared immediately before the current chunk
* @return true if the two chunks represent different words (i.e. should have a space between them). False otherwise.
*/
protected bool IsChunkAtWordBoundary(TextChunk chunk, TextChunk previousChunk) {
float dist = chunk.DistanceFromEndOf(previousChunk);
if(dist < -chunk.CharSpaceWidth || dist > chunk.CharSpaceWidth / 2.0f)
return true;
return false;
}

将其放入其自己的方法中的目的是仅需要对策略进行简单的子类化并重写该方法以调整启发式标准。这在等效的 iText Java 类的情况下工作正常,但不幸的是,在移植到 iTextSharp 期间,没有 virtual 被添加到声明中(从版本 5.4.4 开始)。因此,目前复制整个策略对于 iTextSharp 仍然是必要的。

@Bruno 你可能想把这件事告诉 iText -> iTextSharp 移植团队。

虽然您可以在这些代码位置微调文本提取,但您应该知道,您不会在这里找到 100% 的标准。一些原因是:

  • 在密集设置的文本中,单词之间的间隙可以小于字距调整或单词内部某些光学效果的其他间隙。因此,这里没有放之四海而皆准的因素。
  • 在根本不使用空格字符的 PDF 中(因为您始终可以使用间隙,这是可能的),“空格字符的宽度”可能是某个随机值或根本无法确定!
  • 有一些有趣的 PDF 滥用空格字符宽度(可以随时单独拉伸(stretch)以进行后续操作)来进行一些表格格式化,同时使用间隙进行断字。在这样的 PDF 中,不能认真地使用空格字符的当前宽度值来确定分词符。
  • 有时您会发现一行中的单个单词被打印出来以强调。大多数启发式方法可能会将这些解析为单字母单词的集合。

通过考虑所有字符之间的实际视觉自由空间(使用 PDF 渲染或字体信息分析机制),您可以获得比 iText 启发式方法和使用其他常量从中派生的启发式方法更好的方法,但是为了获得可感知的改进,您必须投入大量时间。

关于c# - 我们如何使用带空格的 itextsharp 从 pdf 中提取文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16398483/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com