- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我制作了这个脚本,它删除了所有尾随的空白字符,并用正确的字符替换了所有错误的法语字符。
删除尾随的空白字符有效,但不是关于替换法语字符的部分。
要读/写的文件是用 UTF-8 编码的,所以我在脚本上方添加了 utf-8 声明,但最后每个坏字符(如\u00e9)都被小方 block 替换。
知道为什么吗?
脚本:
# --*-- encoding: utf-8 --*--
import fileinput
import sys
CRLF = "\r\n"
ACCENT_AIGU = "\\u00e9"
ACCENT_GRAVE = "\\u00e8"
C_CEDILLE = "\\u00e7"
A_ACCENTUE = "\\u00e0"
E_CIRCONFLEXE = "\\u00ea"
CURRENT_ENCODING = "utf-8"
#Getting filepath
print "Veuillez entrer le chemin du fichier (utiliser des \\ ou /, c'est pareil) :"
path = str(raw_input())
path.replace("\\", "/")
#removing trailing whitespace characters
for line in fileinput.FileInput(path, inplace=1):
if line != CRLF:
line = line.rstrip()
print line
print >>sys.stderr, line
else:
print CRLF
print >>sys.stderr, CRLF
fileinput.close()
#Replacing bad wharacters
for line in fileinput.FileInput(path, inplace=1):
line = line.decode(CURRENT_ENCODING)
line = line.replace(ACCENT_AIGU, "é")
line = line.replace(ACCENT_GRAVE, "è")
line = line.replace(A_ACCENTUE, "à")
line = line.replace(E_CIRCONFLEXE, "ê")
line = line.replace(C_CEDILLE, "ç")
line.encode(CURRENT_ENCODING)
sys.stdout.write(line) #avoid CRLF added by print
print >>sys.stderr, line
fileinput.close()
输入文件包含这种类型的文本:
* Cette m\u00e9thode permet d'appeller le service du module de tourn\u00e9e
* <code>rechercherTechnicien</code> et retourne la liste repr\u00e9sentant le num\u00e9ro
* de la tourn\u00e9e ainsi que le nom et le pr\u00e9nom du technicien et la dur\u00e9e
* th\u00e9orique por se rendre au point d'intervention.
*
如果有人感兴趣,请查看最终代码,第一部分替换编码错误的字符,第二部分删除所有正确的尾随空白字符。
# --*-- encoding: iso-8859-1 --*--
import fileinput
import re
CRLF = "\r\n"
print "Veuillez entrer le chemin du fichier (utiliser des \\ ou /, c'est pareil) :"
path = str(raw_input())
path = path.replace("\\", "/")
def unicodize(seg):
if re.match(r'\\u[0-9a-f]{4}', seg):
return seg.decode('unicode-escape')
return seg.decode('utf-8')
print "Replacing caracter badly encoded"
with open(path,"r") as f:
content = f.read()
replaced = (unicodize(seg) for seg in re.split(r'(\\u[0-9a-f]{4})',content))
with open(path, "w") as o:
o.write(''.join(replaced).encode("utf-8"))
print "Removing trailing whitespaces caracters"
for line in fileinput.FileInput(path, inplace=1):
if line != CRLF:
line = line.rstrip()
print line
else:
print CRLF
fileinput.close()
print "Done!"
最佳答案
你正在寻找s.decode('unicode_escape')
:
>>> s = r"""
... * Cette m\u00e9thode permet d'appeller le service du module de tourn\u00e9e
... * <code>rechercherTechnicien</code> et retourne la liste repr\u00e9sentant le num\u00e9ro
... * de la tourn\u00e9e ainsi que le nom et le pr\u00e9nom du technicien et la dur\u00e9e
... * th\u00e9orique por se rendre au point d'intervention.
... *
... """
>>> print(s.decode('unicode_escape'))
* Cette méthode permet d'appeller le service du module de tournée
* <code>rechercherTechnicien</code> et retourne la liste représentant le numéro
* de la tournée ainsi que le nom et le prénom du technicien et la durée
* théorique por se rendre au point d'intervention.
*
在将字符串写入文件之前不要忘记对其进行编码
(例如 UTF-8):
writable_s = s.decode('unicode_escape').encode('utf-8')
关于Python 2.7 从utf-8文件读写 "éèàçê",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17060810/
我用 chown 不行。 Bilals-MBP:~ $ sudo mkdir -p /data/db Password: mkdir: /data/db: Read-only file system
我陷入了一个非常简单的问题。 我正在尝试制作一个Qt GUI应用程序以从GUI控制我的Arduino(而不是从Arduino IDE的串行监视器控制它)。我能够使用QSerialPort write(
我正在尝试使用 Win32 的 CreateFile 函数打开一个 COM 端口。我已经在 MSDN 以及几个论坛上阅读了有关如何执行此操作的文档,但无论我做什么,我仍然收到错误代码 #2(端口不存在
我正在尝试使用系统调用 read() 和 write()。以下程序创建一个文件并将一些数据写入其中。这是代码.. int main() { int fd; open("stud
我对 Xcode 和 sqlite 有点陌生。现在我有一个名为“mydb.db”的数据库文件,它已经有一些表和数据。我把它放在我的 mac 文件夹中,然后将它拖到“支持文件”下的 Xcode 项目中。
背景:如果需要,请跳至问题部分 我正在研究测试设备的前端。前端的目的是为了更容易编写长测试脚本。几乎只是让它们更易读和可写。 设备将使用 Prologix GPIB-USB Controller 进行
本文实例讲述了python文件常见操作。分享给大家供大家参考,具体如下: 1.文件是什么? 文件是存储在外部介质上的数据或信息集合,程序中源程序、数据中保存的数据、图像中的像素数据等等; 文件
C++0x 指定 std::atomic线程安全原子访问变量的模板。这个模板有一个成员函数 std::atomic::exchange原子地在“this”中存储一个新值并检索“this”的现有值。 W
VBA 中是否有任何方法可以读取和写入 INI 文件?我知道我可以使用; Open "C:\test.ini" For Input As #1 ...并解析数据。相反,我试图查看已有哪些工具可用。 我
我最近在 GitHub 存储库 system-design-primer 上看到了系统设计示例,它显示了读/写 API。我正在尝试实现 this one 以进行练习。大纲是这样的。 它分离了读写API
我在使用 DEVMODE 结构的 dmColor 字段时遇到问题。 我的默认打印机是彩色打印机,如果我通过控制面板将打印机属性的颜色默认输出为黑白,则 DEVMODE.dmColor 字段始终返回 D
我知道套接字等如何与 java/android 配合使用,但是如何使用 java 或 python 连接到桌面上的 COM 端口?您想使用地址吗?或者查找您想要的端口是否可用或者什么? 我不知道该怎么
什么构成 DynamoDB 中的实际读取? 它是读取表格中的每一行还是返回什么数据? 这就是扫描如此昂贵的原因 - 您读取整个表格并为读取的每一行表格付费吗? 能否将 ElasticCache (Me
我想用Java编写一个程序来检查src是否存在(如果不抛出FileNoot的话) 并将src.txt的内容复制到des.txt 并在开头和结尾处打印两个文件的大小 输出为: src.txt is in
我在 C++ 中有一个 float 数组,我想将它保存到一个二进制文件中(以节省空间),以便以后能够再次读取它。为此,我编写了以下代码来编写数组: float *zbuffer = new float
我试图为 websocket 创建一个 Read\Write 函数,但我遇到了一个问题...... var inarrivo = 0; var risposta = ""; function RDW_
在我的应用程序中是用 Qt 编写的,我有一个 QGraphicsScene。在这个 QgraphicsScene 中有一个图像和一些由用户绘制的项目。我想保存这个包含所有内容的 QgraphicsSc
我正在编写一个程序,该程序应该无限期运行并保持变量的值。其他两个程序可以更改变量的值。我使用命名管道接收变量值并将其发送到外部程序。 这是我的变量管理器代码。 manager.c: #includ
我和一位老师谈过,他告诉我读写系统调用使用缓冲区,因为在你的系统规范中有一个变量控制你可以访问你想要读/写的设备的次数on,系统在他等待写入设备时使用buffer来存储数据。 我在另一篇 Stack
我运行一个方法,有三个部分,第 1 部分和第 3 部分都是“读取文本文件”, 第二部分是将字符串保存到文本文件, // The Save Path is the text file's Path, u
我是一名优秀的程序员,十分优秀!