gpt4 book ai didi

PDF 和 DOCX 魔数(Magic Number)

转载 作者:行者123 更新时间:2023-12-02 15:23:51 26 4
gpt4 key购买 nike

我读取第一个字节以区分文件类型,但 PDF 和 DOCX 都有一个“0x50”魔数(Magic Number)。我该如何处理这种情况?

最佳答案

PDF 文件没有以“魔法”字节开头。如果您阅读 PDF 规范,您会发现它们必须以“%PDF”开头,但实际上许多 PDF 文件不是这样。

1) 仅寻找 %PDF header 来识别 PDF 文件是非常不可靠的,有效的 PDF 文件是您可以解析的文件(至少具有预告片、交叉引用表等)。

2) 曾经有人建议 PDF 文件在 %PDF header 之前包含二进制数据,以确保它们被视为二进制文件。结果,PDF 阅读器一度开始在 %PDF header 之前接受一定数量的二进制字节(随机字节)。此类文件无法通过简单的魔数(Magic Number)或魔数(Magic Number)串检测到。

关于PDF 和 DOCX 魔数(Magic Number),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32178603/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com