gpt4 book ai didi

python - 在 Python 中读取 "raw"Unicode 字符串

转载 作者:太空宇宙 更新时间:2023-11-04 11:06:01 25 4
gpt4 key购买 nike

我是 Python 的新手,所以我的问题可能很愚蠢,但即使阅读了很多线程,我也没有找到问题的答案。

我有一个包含 html、xml、latex 和其他文本格式的混合源文档,我试图将其转换为纯 latex 格式。

因此,我使用 python 将不同的命令识别为正则表达式,并用适当的 latex 命令替换它们。到目前为止一切顺利。

现在我只剩下一些“原始类型”的 Unicode 符号,例如希腊字母。不幸的是,用手做这件事几乎是不可能的。因此,我也在寻找一种聪明的方法来做到这一点。有没有办法让 Python 识别/读取它们?以及如何告诉 python 识别/读取例如Pi 写成希腊字母?

我使用的代码的一个最小示例是:

fh = open('SOURCE_DOCUMENT','r')
stuff = fh.read()
fh.close()

new_stuff = re.sub('READ','REPLACE',stuff)
fh = open('LATEX_DOCUMENT','w')
fh.write(new_stuff)
fh.close()

我不确定这是否是重要信息,但我使用的是在 Windows 上运行的 Python 2.6。

如果有人能给我提示,我会很高兴,至少在哪里可以找到相应的信息或者它是如何工作的。或者我是否完全错了,Python 不能做这个工作......

非常感谢。
干杯,
布里塔

最佳答案

你说的是“原始”Unicode 字符串。这意味着什么? Unicode 本身不是一种编码,但是有不同的编码来存储 Unicode 字符(Joel 阅读 this post)。

open Python 3.0 中的函数采用可选的 encoding 参数,让您指定编码,例如UTF-8(一种非常常见的 Unicode 编码方式)。在 Python 2.x 中,查看 codecs模块,它还提供了一个 open允许指定文件编码的函数。

编辑:或者,为什么不让那些可怜的字符存在,并在顶部指定 LaTeX 文件的编码:

\usepackage[utf8]{inputenc}

(我从未尝试过,但我认为它应该有效。不过,您 may 需要将 utf8 替换为 utf8x)

关于python - 在 Python 中读取 "raw"Unicode 字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/909886/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com