gpt4 book ai didi

ios - CGPDFPageRef 特殊字符

转载 作者:行者123 更新时间:2023-11-28 19:53:15 27 4
gpt4 key购买 nike

我正在尝试解析一些 PDF 文件以从中获取文本,但我在阅读特殊字符时遇到了一些问题,例如 : Ş ă â ' "和其他字符。

我有下一个运算符:

CGPDFOperatorTableSetCallback (table, "MP", &op_MP)
CGPDFOperatorTableSetCallback (table, "DP", &op_DP)

CGPDFOperatorTableSetCallback (table, "BMC", &op_BMC)
CGPDFOperatorTableSetCallback (table, "BDC", &op_BDC)
CGPDFOperatorTableSetCallback (table, "EMC", &op_EMC)
CGPDFOperatorTableSetCallback(table, "TJ", arrayCallback)
CGPDFOperatorTableSetCallback(table, "Tj", stringCallback)

我得到的不是那些特殊字符,而是 Ñ Ó ß 等等...有什么我想念的吗?

谢谢

最佳答案

TJ 和 Tj 运算符(以及其他文本显示运算符)的参数不是实际的字符串,而是字节数组。这些数组中的字节应根据字体的编码和 ToUnicode cmap(如果可用)转换为字符。
您还必须处理设置事件字体的 Tf 运算符。根据作为参数提供的字体 ID,您可以在/Resources 字典中找到字体对象。字体对象包含正确解码 TJ/Tj 参数所需的条目。
PDFKitten框架是灵感的良好开端。

阅读PDF specification (第 9.10 节及相关部分)是实现从 PDF 文件中提取文本所必需的。

关于ios - CGPDFPageRef 特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28031985/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com