gpt4 book ai didi

Python-Unicode 错误 - 'utf-8' 无法解码 .py 文件中的字节,但可以在交互环境中解码

转载 作者:太空宇宙 更新时间:2023-11-03 15:41:42 26 4
gpt4 key购买 nike

系统信息:

sys.version = 3.5.2 |Anaconda 4.1.1(64 位)

Visual Studio 社区 2015:版本 14.0.25425.01 更新 3

适用于 Visual Studio 的 Python 工具:2.2.40623.00

适用于 Visual Studio 的 Python 工具 - Django 集成:2.2.40623.00

适用于 Visual Studio 的 Python 工具 - 分析支持:2.2.40623.00

代码:

import nltk
french_tokenizer = nltk.data.load('tokenizers/punkt/french.pickle')
text = "J’habite aux États-Unis. Où est-ce que vous habitez? Quel est votre film préféré?"
sentList = french_tokenizer.tokenize(text)
print(sentList)

问题:

当我在 Python 64 位 3.5 交互式环境中逐行运行此代码时,每行都会正确处理。

当我尝试一次运行整个程序时,我收到有关“text =”行的以下错误:语法错误:(unicode 错误)'utf-8' 编解码器无法解码位置 0 中的字节 0x92:无效起始字节

潜在相关:我访问了 Python 文档 ( https://docs.python.org/3.5/howto/unicode.html ) 并尝试了他们的一些示例代码,但遇到了类似的问题:

répertoire = "/tmp/records.log"

在 Python 64 位 3.5 交互式环境中工作正常,但作为 .py 文件的一部分运行时会产生以下内容(不运行文件的其余部分,包括前面非常简单的“打印”命令) :

程序“[13644] python.exe”已退出,代码为 1 (0x1)。

有人对为什么会发生这种情况/如何修复此错误有任何想法吗?

最佳答案

仔细看看 text = "J’habite ..." 中的波浪线——它是 U+2019 右单引号。将该字符编码为 cp1252 会生成 "\x92"。看起来您的源代码是用 cp1252 或类似编码的。您应该确保您的源代码采用 utf-8 编码。

关于Python-Unicode 错误 - 'utf-8' 无法解码 .py 文件中的字节,但可以在交互环境中解码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42057023/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com