gpt4 book ai didi

python - Python如何检查文件名是否为UTF8?

转载 作者:可可西里 更新时间:2023-11-01 09:24:55 26 4
gpt4 key购买 nike

我有一个 PHP 脚本可以在目录中创建文件列表,但是,PHP 只能看到英文文件名,而完全忽略其他语言的文件名,例如俄语或亚洲语言。

经过大量努力,我找到了唯一适合我的解决方案 - 使用 python 脚本将文件重命名为 UTF8,以便 PHP 脚本可以在之后处理它们。

(PHP处理完文件后,我将文件重命名为英文,不保留UTF8)。

我使用了以下 python 脚本,效果很好:

import sys
import os
import glob
import ntpath
from random import randint

for infile in glob.glob( os.path.join('C:\\MyFiles', u'*') ):
if os.path.isfile(infile):
infile_utf8 = infile.encode('utf8')
os.rename(infile, infile_utf8)

问题是它还会转换已经在 UTF8 中的文件名。如果文件名已经是 UTF8,我需要一种跳过转换的方法。

我正在尝试这个 python 脚本:

for infile in glob.glob( os.path.join('C:\\MyFiles', u'*') ):
if os.path.isfile(infile):
try:
infile.decode('UTF-8', 'strict')
except UnicodeDecodeError:
infile_utf8 = infile.encode('utf8')
os.rename(infile, infile_utf8)

但是,如果文件名已经是 utf8,我会得到 fatal error :

UnicodeDecodeError: 'ascii' codec can't decode characters in position 18-20
ordinal not in range(128)

我也试过另一种方法,也没有用:

for infile in glob.glob( os.path.join('C:\\MyFiles', u'*') ):
if os.path.isfile(infile):
try:
tmpstr = str(infile)
except UnicodeDecodeError:
infile_utf8 = infile.encode('utf8')
os.rename(infile, infile_utf8)

我得到了和以前完全一样的错误。

有什么想法吗?

Python 对我来说是一个新手,调试一个简单的脚本对我来说是一个巨大的努力,所以请写一个明确的答案(即代码)。我没有能力测试可能有效或无效的一般想法。谢谢。

文件名示例:

 hello.txt
你好.txt
안녕하세요.html
chào.doc

最佳答案

我认为您混淆了术语并做出了一些错误的假设。 AFAIK,PHP 可以打开任何编码类型的文件名 - PHP 对编码类型非常不可知。

你还不清楚你想要实现什么作为 UTF-8 != English 并且示异常(exception)国文件名可以用多种方式编码但永远不会用 ASCII 英语编码!您能否解释一下您认为现有的 UTF-8 文件是什么样的以及什么是非 UTF-8 文件?

让您更加困惑的是,在 Windows 下,文件名透明地存储为 UTF-16。因此,您不应尝试将文件名编码为 UTF-8。相反,您应该使用 Unicode 字符串并让 Python 计算出正确的转换。 (也不要使用 UTF-16 编码!)

请进一步澄清您的问题。

更新:

我现在明白你的 PHP 问题了。 http://evertpot.com/filesystem-encoding-and-php/告诉我们 non-latin 字符在 PHP+Windows 中很麻烦。似乎只能看到和打开由 Windows 1252 字符集字符组成的文件。

您面临的挑战是将文件名转换为与 Windows 1252 兼容。正如您在问题中所述,最好不要重命名已经兼容的文件。我已将您的尝试改写为:

import os
from glob import glob
import shutil
import urllib

files = glob(u'*.txt')
for my_file in files:
try:
print "File %s" % my_file
except UnicodeEncodeError:
print "File (escaped): %s" % my_file.encode("unicode_escape")
new_name = my_file
try:
my_file.encode("cp1252" , "strict")
print " Name unchanged. Copying anyway"
except UnicodeEncodeError:
print " Can not convert to cp1252"
utf_8_name = my_file.encode("UTF-8")
new_name = urllib.quote(utf_8_name )
print " New name: (%% encoded): %s" % new_name

shutil.copy2(my_file, os.path.join("fixed", new_name))

分割:

  1. 打印文件名。默认情况下,Windows shell 仅在本地 DOS 代码页中显示结果。例如,我的 shell 可以显示 ü.txt€.txt 显示为 ?.txt。因此,你需要小心 Python 抛出异常,因为它无法正常打印。此代码尝试打印 Unicode 版本,但改为打印 Unicode 代码点转义。

  2. 尝试将字符串编码为 Windows-1252。如果这有效,文件名就可以了

  3. 否则:将文件名转换为 UTF-8,然后对其进行百分比编码。这样,文件名保持唯一,您可以在 PHP 中逆向执行此过程。

  4. 将文件复制到新的/已验证的文件。

比如你好.txt变成%E4%BD%A0%E5%A5%BD.txt

关于python - Python如何检查文件名是否为UTF8?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19128461/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com