gpt4 book ai didi

c# - 使用 iText7 + C# 从 pdf 读取文本,无法识别文本

转载 作者:行者123 更新时间:2023-12-03 20:56:27 25 4
gpt4 key购买 nike

我想从pdf文档中读取数据。我使用 iText7:

var src = "<file location>";
var pdfDocument = new PdfDocument(new PdfReader(src));
var strategy = new LocationTextExtractionStrategy();
for (int i = 1; i <= pdfDocument.GetNumberOfPages(); ++i)
{
var page = pdfDocument.GetPage(i);
string text = PdfTextExtractor.GetTextFromPage(page, strategy);
string processed = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
}
pdfDocument.Close();

它有效,但不识别字母。所有文字看起来像

"����������\n�������������������������\n���������� ��������������������������\n

它是英文的,所以我不希望编码有任何问题。这个问题的原因是什么,我该如何解决?

最佳答案

你不需要你正在做的转换。将代码更改为:

StringBuilder processed = new StringBuilder();

for (int i = 1; i <= pdfDocument.GetNumberOfPages(); ++i)
{
var page = pdfDocument.GetPage(i);
string text = PdfTextExtractor.GetTextFromPage(page, strategy);
processed.Append(text);
}

关于c# - 使用 iText7 + C# 从 pdf 读取文本,无法识别文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60771120/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com