gpt4 book ai didi

c# - 使用 Itextsharp 读取本地化的 PDF 文件

转载 作者:行者123 更新时间:2023-11-30 18:38:50 30 4
gpt4 key购买 nike

我正在尝试使用 iTextSharp 阅读 PDF 文件。问题是当尝试阅读非英语(例如印地语或阿拉伯语)的 PDF 文件时,它没有得到正确的单词。

我想知道,我应该在我的系统上安装印地语或阿拉伯语字体,还是需要做一些编码?

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);

编辑:

示例 PDF 作为图像:

enter image description here

提取的文本:

uxj ikfydk ifj"kn fuokZpd ukekoyh& 2011我`“B la [; k %1 1 1 1& & & & ftys dk uke ftys dk uke ftys dk uke ftys dk uke % % % %0701-奥德莱德–2 2 2 2& & & & fudk fudk fudk fudk; ; ; ; dk uke dk uke dk uke dk uke % % % % 1-™3 3 3 3& & & & okMZ la okMZ la okMZ la okMZ la[ [ [ [; ; ; ;k o uke k o uke k o uke k o uke % % %1-¯â“¯â™®â£û¶âû §âîºâã®â£û¶âû Õô¯âû®â£û¶âû4 4 4 4& & & & Hkkx la Hkkx la Hkkx la Hkkx la[ [ [ [; ; ; ;k k k k % % % %

最佳答案

Do not use any kind of Encoding, because you do not know what encoding is the pdf file has.

.我认为它会起作用。

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text=text+currentText;

///do what you want with text
MessageBox.Show(text);

如果仍然无法正常工作,那么您必须安装特定的字体。

关于c# - 使用 Itextsharp 读取本地化的 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10900838/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com