gpt4 book ai didi

python - 从二进制数据中识别没有扩展名的文件类型

转载 作者:太空宇宙 更新时间:2023-11-03 12:19:17 25 4
gpt4 key购买 nike

我有一些没有扩展名的文件。我想对它们进行关联扩展。为此,我编写了一个 python 程序来读取文件中的数据。我的疑问是,如果不使用第三方工具,我如何在没有扩展名的情况下识别它的类型。

我只需要识别 pdf、doc 和文本文件。其他类型的文件是不可能的。

我的服务器是cent os

最佳答案

您可以读取文件的前几个字节并查找“魔数(Magic Number)”。 Wikipedia page关于魔数(Magic Number)建议 PDF 文件以 ASCII %PDF 开头,doc 文件以十六进制 D0 CF 11 E0 开头。

在一般情况下,识别文本文件会非常困难,因为许多标准魔数(Magic Number)实际上是二进制文件开头的 ASCII 文本。对于你的情况,如果你能保证除了 PDF、DOC 或 TXT 之外你不会得到任何东西,你可能会做的是检查 PDF 和 DOC 魔数(Magic Number),然后假设它不是文本

关于python - 从二进制数据中识别没有扩展名的文件类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12190128/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com