gpt4 book ai didi

pdf - 如何使用itextsharp从PDF读取表格?

转载 作者:行者123 更新时间:2023-12-05 01:09:37 24 4
gpt4 key购买 nike

我在从 pdf 文件读取表格时遇到问题。这是一个非常简单的 pdf 文件,包含一些文本和一个表格。我使用的工具是 itextsharp。我知道 PDF 中没有表格概念。经过一番谷歌搜索,有人说可以使用 itextsharp + 自定义 ITextExtractionStrategy 来实现。但我不知道如何开始。有人可以给我一些提示吗?或一小段示例代码?

干杯

最佳答案

此代码用于读取表格内容。所有的值都用 ()Tj 括起来,所以我们寻找所有的值,然后你可以用字符串结果做任何事情。

    string _filePath = @"~\MyPDF.pdf";
public List<String> Read()
{
var pdfReader = new PdfReader(_filePath);
var pages = new List<String>();

for (int i = 0; i < pdfReader.NumberOfPages; i++)
{
string textFromPage = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, pdfReader.GetPageContent(i + 1)));

pages.Add(GetDataConvertedData(textFromPage));
}

return pages;
}

string GetDataConvertedData(string textFromPage)
{
var texts = textFromPage.Split(new[] { "\n" }, StringSplitOptions.None)
.Where(text => text.Contains("Tj")).ToList();

return texts.Aggregate(string.Empty, (current, t) => current +
t.TrimStart('(')
.TrimEnd('j')
.TrimEnd('T')
.TrimEnd(')'));
}

关于pdf - 如何使用itextsharp从PDF读取表格?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15679958/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com