- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试解析一些 PDF 文件以从中获取文本,但我在阅读特殊字符时遇到了一些问题,例如 : Ş ă â ' "和其他字符。
我有下一个运算符:
CGPDFOperatorTableSetCallback (table, "MP", &op_MP)
CGPDFOperatorTableSetCallback (table, "DP", &op_DP)
CGPDFOperatorTableSetCallback (table, "BMC", &op_BMC)
CGPDFOperatorTableSetCallback (table, "BDC", &op_BDC)
CGPDFOperatorTableSetCallback (table, "EMC", &op_EMC)
CGPDFOperatorTableSetCallback(table, "TJ", arrayCallback)
CGPDFOperatorTableSetCallback(table, "Tj", stringCallback)
我得到的不是那些特殊字符,而是 Ñ Ó ß 等等...有什么我想念的吗?
谢谢
最佳答案
TJ 和 Tj 运算符(以及其他文本显示运算符)的参数不是实际的字符串,而是字节数组。这些数组中的字节应根据字体的编码和 ToUnicode cmap(如果可用)转换为字符。
您还必须处理设置事件字体的 Tf 运算符。根据作为参数提供的字体 ID,您可以在/Resources 字典中找到字体对象。字体对象包含正确解码 TJ/Tj 参数所需的条目。
PDFKitten框架是灵感的良好开端。
阅读PDF specification (第 9.10 节及相关部分)是实现从 PDF 文件中提取文本所必需的。
关于ios - CGPDFPageRef 特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28031985/
我正在尝试解析一些 PDF 文件以从中获取文本,但我在阅读特殊字符时遇到了一些问题,例如 : Ş ă â ' "和其他字符。 我有下一个运算符: CGPDFOperatorTableSetCallba
我需要将 CGPDFPageRef var 转换为整数,我创建了一个 if 语句来检查 PDF 页面是否小于或大于文件未显示的页面它。 - (id) setUpPDF: (int) pageNumbe
我无法从 ContentViewController 访问 ReaderControllerView 的 CGPDFPageRef 和 CGPDFDocumentRef。我在头文件中的 @public
我想在 Objective-C 中将 PDF 无损转换为光栅图像。为此,不得将 PDF 绘制到上下文中。另外,我需要能够缩放 PDF。有什么想法吗? 最佳答案 通过将 PDF 转换为光栅表示形式,您可
请看下面的代码: NSString *pdfPath = [documentsDirectory stringByAppendingPathComponent:@"test.pdf"]; NSData
我是一名优秀的程序员,十分优秀!