gpt4 book ai didi

python - 解码文件名问题

转载 作者:太空宇宙 更新时间:2023-11-04 06:10:20 35 4
gpt4 key购买 nike

为了简化我的问题,我创建了一个工作演示,它应该根据关于处理文件名的 python unicode 文档工作。输出结果如下:

$ ./test_unicode.py /tmp/gsynctest/Greg.*
p = '/tmp/gsynctest/Greg. Descripci\xf3n v\xeddeos'
up = u'/tmp/gsynctest/Greg. Descripci\xf3n v\xeddeos'
up.utf8 = /tmp/gsynctest/Greg. Descripción vídeos
Command line file exists = True
Unicode file exists = False
UTF-8 file exists = False

如您所见,按出现顺序,p 是通过 argv 和 glob 提供的文件名。尽管我的终端有 LANG="en_GB.UTF-8",但它有一个“latin-1”编码。如果我使用严格的 unicode 错误集对其进行解码,我将得到 up 显示的字符串。如果我随后将其编码为 utf8,我将得到代表真实文件名的内容。

但是,根据 unicode 文档,应该使用 sys.getfilesystemencoding() 来编码 unicode 文件名以便访问它。但这不起作用。三个 exists 检查显示哪个有效,它似乎是 latin-1 (ISO-8859-1) 编码。

我不知道为什么我看到的没有反射(reflect)文档。

下面是测试程序代码:

#!/usr/bin/env python

import sys, os

paths = sys.argv[1:]

fsenc = sys.getfilesystemencoding()

for p in paths:
print "p = %s" % repr(p)

if not isinstance(p, unicode):
up = unicode(p, encoding = "latin-1", errors = "strict")

print "up = %s" % repr(up)
print "up.utf8 = %s" % up.encode("utf8")

print "Command line file exists = %s" % os.path.exists(p)
print "Unicode file exists = %s" % os.path.exists(up)
print "%s file exists = %s" % (fsenc, os.path.exists(up.encode(fsenc)))

. . .

原始问题:

如果我尝试解码以下原始格式的文件名表示,我会收到“无效连续字节”错误:Greg。描述\xf3n v\xeddeos\n

for p in paths:
p = p.decode(sys.getfilesystemencoding())

这是提交此错误的用户提交的真实文件名。我对 unicode/UTF-8 编码的理解不是很好,但据我所知,它不是合法的 UTF-8,因为它需要某种终止符。我真的不在乎打印时文件名的外观,它只需要在磁盘上可以访问即可。像这样处理文件的常规方法是什么?我的大部分问题都源于尝试打印文件:

debug(u"Filename: %s" % unicode(path))

更新:尝试、更加努力、更加努力的方法是否有用?

for e in (sys.getfilesystemencoding(), "UTF-8", "Latin-1"):
try:
p_dec = p.decode("Latin-1")
p = p_dec.encode(sys.getfilesystemencoding())
except UnicodeDecodeError:
pass

对于文件系统编码相同的编码,显然不是最佳选择,因为它将以相同的编码进行解码和编码。但至少我可以保证后续调用解码文件名不会有异常。我看到的唯一问题是,不正确的编码可能会无误地解码文件名,从而产生完全错误的编码文件名。

无论哪种方式,我都需要跟踪两个文件名吗?磁盘上可访问的原始文件名和可打印文件名?或者文件系统编码的文件名是否既可打印又可访问?

更新 2:我的问题的答案是“否”。我实现了自己的编解码器来循环编码类型并在文件系统编码中重新编码。该表示现在可打印:Greg。 Description vídeos 但该文件不再可访问。所以我假设保留文件系统访问和可打印性的最简单方法是将文件名包装在一个类中,同时实现打印和 IO;除非有人有任何其他建议吗?

最佳答案

首先,只写 unicode(path) 几乎总是一个坏主意。如果需要将字符串转换为 Unicode,则需要知道它所在的字符集。

假设 p 表示来自文件系统的路径(例如,您从 os.listdir 获得它),那么您希望使用文件系统的编码对其进行解码,而不仅仅是无论 Python 认为什么是一个不错的默认值。* 所以,正确的做法是你已经在上面做了:

p = p.decode(sys.getfilesystemencoding())

如果 path 代表其他东西(例如,您从用户输入中获得它),那就是另一回事了。

或者,如果 path 是您已经在上面计算的那些 p 值之一,那么它是已经 unicode ,因此再次尝试解码会将其重新编码为您的默认编码,然后重新解码,这是一件愚蠢的事情。

但是如果不知道字符串的来源,您(和我们)就无法知道它的字符集,因此您无法知道如何对其进行解码。


* 在某些系统上,您会很幸运。例如,对于 Mac 上的 Python 3.x,默认编码和文件系统编码都将始终为 UTF-8。但是对于较旧的 Linux 机器上的 Python 2.x,默认编码可能是 UTF-8,而文件系统是 Latin-1……这似乎正是您在这里得到的。

关于python - 解码文件名问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19124233/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com