gpt4 book ai didi

actionscript-3 - 阅读PDF,字符问题

转载 作者:行者123 更新时间:2023-12-02 13:29:41 26 4
gpt4 key购买 nike

我尝试使用 PurePDF 收集 PDF 文件中的一些信息,但无法让 PurePDF 读取它。

每当 PurePDF 尝试读取任何 pdf 时,它都会说找不到其 header ,我尝试对其进行调试,并注意到从 bytearray 读取的字符串是日语字符!我尝试在将 pdf 字节数组传递给 PurePDF 之前更改其字节序,但没有更改任何内容。

pdf 文件没问题,因为每当我以文本形式打开它时,我都可以看到“%PDF-”标题,但由于某种原因,actionscript 获取了错误的字符代码,因此 PurePDF 根本无法工作。

有什么想法吗?

谢谢。

<小时/>

更新:我不是字节数组专家,但我决定使用它并通过调试器跟踪代码执行,并发现它使用 readInt() 来获取字符,我只是将其重写为 readByte()现在它正在阅读 PDF!我仍在查看这些功能是否有效...任何更喜欢低级编程的人都可以向我解释可能会发生什么吗?我不认为该项目在 svn 中被破坏

这是我一直在使用的代码,我认为它非常简单:

private function loadPdf():void
{
var loader:URLLoader=new URLLoader();
loader.dataFormat=URLLoaderDataFormat.BINARY;
loader.addEventListener(Event.COMPLETE, onLoadComplete);
loader.load(new URLRequest(PDF_FILE));
}

protected function onLoadComplete(event:Event):void
{
var data:ByteArray = URLLoader(event.target).data as ByteArray;
pdfReader = new PdfReader(data);
pdfReader.readPdf();
}

最佳答案

我以前没有使用过 PurePDF,但我使用过 bytearray 从文件中提取信息。您到底想从这个 pdf 中得到什么?您只想提取文本吗?另外可以上传一下PDF的链接吗?如果我们关注的是同一件事,会更容易提供帮助。

关于日语文本...当您阅读字节数组中的 PDF 时,不要期望轻松找到人类可读的文本,因为大部分数据用于设置文件结构等。放置 PDF 中的实际文本和图片在称为 Streams 的标签内。因此,通常您会找到一个文本流并将其提取到字节数组中。要正确显示文本,您可以使用 PDF 数据中提到的解码器类型(UTF-8、UTF-16 等)。

下面的链接更好地解释了 PDF 流:(“/Length”成为字节数组长度,“Filter”告诉您解码类型(字符集类型,例如 ASCII)等)

http://blog.didierstevens.com/2008/05/19/pdf-stream-objects/

无论如何,如果您在十六进制编辑器中打开 PDF,这一切都是有意义的。如果您需要的话,请尝试下面的一种。现在您可以看到流位置在哪里,并告诉 AS3 从那里提取:

http://www.hhdsoftware.com/free-hex-editor

如果仍有问题,请将您的 PDF 上传到某个位置,并准确说明您要从文档中提取的内容。我会尽力为此提供确切的帮助(没有 promise ,只是想提供帮助)..和平。

关于actionscript-3 - 阅读PDF,字符问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14917411/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com