gpt4 book ai didi

c# - 如何从 PDF 中读取日语字符?

转载 作者:行者123 更新时间:2023-12-05 01:35:51 25 4
gpt4 key购买 nike

我正在使用 C# 中的 IText7 解析包含日文字符的 PDF 文件,如下所示:

    public static string ExtractTextFromPDF(string filePath)
{
var pdfReader = new PdfReader(filePath);
var pdfDoc = new PdfDocument(pdfReader);
var sb = new StringBuilder();
for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
var strategy = new SimpleTextExtractionStrategy();
sb.Append(PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy));
}
pdfDoc.Close();
pdfReader.Close();
return sb.ToString();
}

但是我遇到了异常:

iText.IO.IOException: 'The CMap iText.IO.Font.Cmap.UniJIS-UTF16-H wasnot found.'

我四处寻找关于如何添加这个的解决方案,但我还没有想出任何适用于日文字符的方法。如果有任何其他更适合的图书馆也可以。有帮助吗?

谢谢

最佳答案

CMap 编码(特别是 CJK 脚本)位于单独的包中。

对于 .Net,通过 nuget 使用 itext7.font-asian

对于 Java,通过 maven 使用 com.itextpdf:font-asian

这个包的存在对于 Java version 更明显比 .Net version .

关于c# - 如何从 PDF 中读取日语字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62529966/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com