Python:特殊字符编码-6ren

Python:特殊字符编码

转载作者：行者123 更新时间：2023-12-05 08:00:51

27

4

这是我用来替换文本文件中的特殊字符并将它们连接到一个文件中的代码。

# -*- coding: utf-8 -*-

    import os
    import codecs

    dirpath = "C:\\Users\\user\\path\\to\\textfiles"
    filenames = os.listdir(dirpath)

    with codecs.open(r'C:\Users\user\path\to\output.txt', 'w', encoding='utf8') as outfile:
        for fname in filenames:
            currentfile = dirpath+"\\"+fname
            with codecs.open(currentfile, encoding='utf8') as infile:
        #print currentfile
                outfile.write(fname)
                outfile.write('\n')
                outfile.write('\n')

                for line in infile:

                    line = line.replace(u"´ı", "i")
                    line = line.replace(u"ï¬", "fi")
                    line = line.replace(u"ï¬‚", "fl")
                    outfile.write (line)

第一个 line.replace 工作正常，而其他的则没有(这是有道理的)并且由于没有生成错误，我虽然可能存在“可见性”问题(如果这是术语).所以我做了这个:

import codecs

currentfile = 'textfile.txt'
with codecs.open('C:\\Users\\user\\path\\to\\output2.txt', 'w', encoding='utf-8') as outfile:
with open(currentfile) as infile:
for line in infile:
if "ï¬" not in line: print "not found!"

总是返回“未找到!”证明这些字符未被读取。

当更改为 with codecs.open('C:\Users\user\path\to\output.txt', 'w', encoding='utf-8') as outfile:在第一个脚本中，我得到这个错误:

Traceback (most recent call last):
File C:\\path\\to\\concat.py, line 30, in <module>
outfile.write(line)
File C:\\Python27\\codecs.py, line 691, in write
return self.writer.write(data)
File C:\\Python27\\codecs.py, line 351, in write
data, consumed = self.encode(object, self.errors)
Unicode DecodeError: 'ascii' codec can't decode byte 0xe7 in position 0: ordinal
not in range (128)

因为我在 python 方面不是很经验，所以我无法弄清楚，通过已经可用的不同来源:python 文档(1，2)和 StackOverflow 中的相关问题(1，2) )

我被困在这里了。有什么建议么？？欢迎大家回答!

最佳答案

如果您不使用编码，则使用 codecs.open() 毫无意义。要么使用 codecs.open() 为读取和写入指定的编码，要么完全放弃它。如果没有编码，codecs.open() 只是 open() 的别名。

在这里您确实确实想要指定您正在打开的文件的编解码器，以处理 Unicode 值。当偏离 ASCII 字符时，您还应该使用 unicode 文字值；为您的数据指定源文件编码或使用 unicode 转义码:

# -*- coding: utf-8 -*- 
import os
import codecs

dirpath = u"C:\\Users\\user\\path\\to\\textfiles"
filenames = os.listdir(dirpath)

with codecs.open(r'C:\Users\user\path\to\output.txt', 'w', encoding='utf8') as outfile:
    for fname in filenames:
        currentfile = os.path.join(dirpath, fname)
        with codecs.open(currentfile, encoding='utf8') as infile:
            outfile.write(fname + '\n\n')
            for line in infile:
                line = line.replace(u"´ı", u"i")
                line = line.replace(u"ï¬", u"fi")
                line = line.replace(u"ï¬‚", u"fl")
                outfile.write (line)

这向解释器指定您使用 UTF-8 编解码器保存源文件，确保 u"´ı" 代码点正确解码为 Unicode 值，并使用 encoding 使用 codec.open() 打开文件时，确保您读取的行被解码为 Unicode 值，并确保您的 Unicode 值作为 UTF- 写入输出文件8.

请注意，dirpath 值也是一个 Unicode 值。如果您使用 Unicode 路径，则 os.listdir() 返回 Unicode 文件名，如果这些文件名中有任何非 ASCII 字符，这是必不可少的。

如果您不做所有这些，您的源代码编码很可能与您从文件中读取的数据不匹配，并且您正试图用一些错误的编码字节集替换ASCII 字符。

关于Python:特殊字符编码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17042489/

27

4

0

文章推荐： math - 双轮廓 - 噪声函数的法向量

文章推荐： tinymce - 为动态加载的新元素添加 tinymce

文章推荐： ruby-on-rails - 从复杂的 Rails 查询导出到 CSV

文章推荐： Perl 系统命令到 Windows NUL 或/dev/null

java - 查看端口问题中的元素[特殊]
我以一种特殊的方式收到以下错误。 The point at which the driver is attempting to click on the element was not scrolle
java - “特殊” APP用例
我有一些包含如下方法的编译库： public boolean foo(String userID) { Class ntSystemClass = Thread.currentThread()
MySQL 特殊 ORDER BY
假设我有下表 name | genre --------------------- book 1 | scifi book 2 | horror book 3
ios - 特殊 - 字符串中的汉字
我正在用代码进行语言翻译。 self.title.text = [NSString stringWithFormat:NSLocalizedString(@"Q%ld", nil), (long)qu
r - 询问〜特殊〜并返回答案的函数
我想这样做，但到目前为止，我所拥有的只是: print("Will you go out with me?") 我希望代码能够正常工作，以便人们可以回答“是/否”，如果回答是"is"，则将返回一条消息
c# - 特殊 HTML 字符
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How can I decode html characters in c#? 我有来自 HTML 的字符，
javascript - 特殊 ucwords 的正则表达式
我想在 JavaScript 中对以下形式的字符串执行 ucwords()，它应该返回 Test1_Test2_Test3。我已经在 SO 上找到了一个 ucwords 函数，但它只需要空格作为新词
javascript - 两个数组的求和\相加(特殊)
“任何长度的正数表示为数字字符数组，因此介于‘0’和‘9’之间。我们知道最重要的密码位于数组索引 0 的位置。例子: - 号码是 10282 - 数组将是数字 = [1,0,2,8,2] 考虑到这一
Android 特殊 Unicode 字符
我目前正在开发一个显示特殊 unicode 字符(例如 ꁴ)的应用现在我遇到了在旧设备上无法显示这些符号的问题。我如何知道它是否适用于当前设备？我是否必须为每个 SDK 版本创建一个虚拟 Andr
html - 特殊 HTML 构造标签的名称
在 HTML、XML 和部分 DTD 中，有两种特殊的标记结构: 以感叹号开头的标签结束，例如和以问号开头的标签，例如和我的问题是，这些构造类型中的每一种是否都有不同的名称，或者我是否必
Python stdout 重定向(特殊)
我目前正在用 python 构建一个 shell。shell 可以执行 python 文件，但我还需要添加使用 PIPE 的选项(例如“|”表示第一个命令的输出将是第二个命令的输入)。为了做到这一点
c# - 特殊 MVC 路由不起作用
我的 MVC 项目中的路由无法正常工作... 我希望我所有的 View 都在 Views > Shared 文件夹中，如下所示: Error.cshtml (default) Index.cshtml
Java - 特殊 URL 字符
我有一个函数: public static ImageIcon GetIconImageFromResource(String path){ URL url = ARMMain.class.g
html - 特殊 HTML 字符
好的，所以我想在我的 html 页面中包含下面的字符。看起来很简单，只是我找不到它们的 HTML 编码。注意:我想在没有大小元素的情况下执行此操作，纯文本就可以了 ^_^。干杯。最佳答案你可以
java - 特殊 Java 注释标签的完整列表
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
c# - 特殊(或外国)字符
我是 C# 的新手，正在尝试使用 ASP.Net GridView(框架 3.5)，当 gridView 文本包含以下内容时，我发现了一个大问题: ñ/Ñ/á/Á/é/É/í/Í/ó/Ó/ú/Ú or
特殊 URL 的 Java 正则表达式
在 Java 中，我尝试编写一个正则表达式来匹配特殊类型的 HTTP URL: http:///# 所以字符串有 4 段: 字符串文字:“http://”；那么任意 1 个以上字符的字符串；那么字
mysql 有内部(特殊)字 "to"吗？
当我写查询时，我在表中有“to”列 SELECT to FROM mytable mysql_error 返回错误，如果将单词to插入``引号，即 SELECT `to` FROM mytable 查
python - 匹配大写/特殊/unicode/越南字符的正则表达式
我遇到了一个问题。事实上，我使用越南语文本，我想找到每个包含大写字母(大写字母)的单词。当我使用“re”模块时，我的函数 (temp) 没有捕捉到像“Đà”这样的词。另一种方法 (temp2) 是一次
python - 替换多个(特殊)字符 - 最有效的方法？
在我的文本中，我想用一个空格替换以下特殊字符: symbols = ["`", "~", "!", "@", "#", "$", "%", "^", "&", "*", "(", ")", "_",

首页

博学

6Ren·AI

商城

Python:特殊字符编码