gpt4 book ai didi

c# - 阅读 PDF 并找到要添加到列表中的特定列

转载 作者:行者123 更新时间:2023-11-30 15:33:16 25 4
gpt4 key购买 nike

那么谁能找到一种方法来以编程方式只读出 .PDF 文件的一列中的数字?换句话说,是否可以删除一个 PDF 文件并制作一些吸收它的东西,读出所有列?

列的格式如下:

401232111555713

最佳答案

以下代码将使用 iTextSharp 打开任何 PDF 并将其读入字符串:

public static string ReadPdfFile(string fileName)
{
StringBuilder text = new StringBuilder();

if (File.Exists(fileName))
{
PdfReader pdfReader = new PdfReader(fileName);

for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();

string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
}
pdfReader.Close();
}
return text.ToString();
}

从那里您可以简单地运行一些 REGEX 以使用您布置的模式获取列:

string text = ReadPdfFile(@"path\to\pdf\file.pdf");
Regex regex = new Regex(@"(?<number>\d{15})");
List<string> results = new List<string>();
foreach (Match m in regex.Matches(text))
{
results.Add(m.Groups["number"].Value);
}

关于c# - 阅读 PDF 并找到要添加到列表中的特定列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17601176/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com