gpt4 book ai didi

pdf - 无法从 pdf 复制确切的印地语内容

转载 作者:行者123 更新时间:2023-12-04 12:06:48 25 4
gpt4 key购买 nike

我无法从 pdf 文件中复制印地语内容。
当我尝试复制/粘贴该内容时,它会更改为不同的印地文字符。

例子-

原创- निर्वाचक

粘贴后-ननरररचक

它是这样显示的。

任何人都可以帮助我获得确切的印地文字符。

最佳答案

此问题与 this answer 中讨论的问题类似。 ,以及sample document there的外观确实也提醒了document here :

简而言之

您的文件本身提供的信息,例如标题行中的字形“निर्वाचक”代表文本“ननरररचक”。您应该向文档来源询问字体信息不会误导的文档版本。如果这是不可能的,你应该去 OCR。

详细

第一页的顶行由页面内容流中的以下操作生成:

/9 239 Tf
( !"#$%&) Tj

第一行选择名为 的字体9 大小为 239(页面开头的操作会缩小所有内容)。第二行导致打印字形。这些字形使用该字体的自定义编码在括号之间引用。

字体 9 在您的 PDF 的第一页包含 ToUnicode map 。这张 map 特别映射
<20> <20> <0928>
<21> <21> <0928>
<22> <22> <0930>
<23> <23> <0930>
<24> <24> <0930>

即代码 0x20 (' ') 和 0x21 ('!') 都映射到 Unicode 代码点 0x0928 ('न') 和代码 0x22 ('"')、0x23 ('#') 和 0x24 ('$ ') 全部到 Unicode 代码点 0x0930 ('र')。

因此, ( !"#$%&) 的内容, 显示为“निर्वाचक”,完全正确(根据文档中的信息)被提取/复制并粘贴为“ननरररचक”。

关于pdf - 无法从 pdf 复制确切的印地语内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30756193/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com