- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
假设我有一个 cp1251 编码的 Python 3 源文件,其内容如下:
# эюяьъ (some Russian comment)
print('Hehehey')
如果我运行这个文件,我会得到这个:
SyntaxError: Non-UTF-8 code starting with '\xfd' in file ... on line 1 but no encoding declared;有关详细信息,请参见 http://python.org/dev/peps/pep-0263/
这很清楚并且符合预期 - 我知道,一般来说,cp1251 字节序列不能用 UTF-8 解码,UTF-8 是 Python 3 中的默认编码。
但是如果我按如下方式编辑文件:
# coding: utf-8
# эюяьъ (some Russian comment)
print('Hehehey')
一切都会好起来的。
这很令人困惑。
在第二个示例中,源代码中仍然有相同的 cp1251 字节序列,这在 UTF-8 中无效,我希望编译器应该使用相同的编码 (UTF-8) 来预处理文件并以相同的错误终止.
我读过PEP 263但仍然不明白它没有发生的原因。
那么,为什么我的代码在第二种情况下有效并在第一种情况下终止?
更新。
为了检查我的文本编辑器是否足够聪明,可以根据 # coding: utf-8
行更改文件的编码,让我们看看实际的字节数:
(第一个例子)
23 20 fd fe ff fa fc ...
(第二个例子)
23 20 63 6f 64 69 6e 67 3a 20 75 74 66 2d 38 0a
23 20 fd fe ff fa fc ...
这些 f 字节用于 cp1251 中的西里尔字母,它们在 UTF-8 中无效。
此外,如果我以这种方式编辑源代码:
# coding: utf-8
# эюяъь (some Russian comment)
print('Hehehey')
print('эюяъь')
我会遇到错误:
语法错误:(unicode 错误)'utf-8' 编解码器无法解码字节 0xfd ...
所以,不幸的是我的文本编辑器不是那么聪明。
因此,在上面的示例中,源文件没有从 cp1251 转换为 UTF-8。
最佳答案
这似乎是如何强制执行默认编码的严格行为的怪癖。在 the tokenizer function, decoding_gets
中,如果它还没有找到明确的编码声明(tok->encoding
仍然是 NULL
),它会逐个字符地检查该行是否无效UTF-8 字符并弹出您看到的引用 PEP 263 的 SyntaxError
。
但是如果已经指定了编码,check_coding_spec
就会定义tok->encoding
,that default encoding strict test就被完全绕过了;它不会被声明的编码测试所取代。
通常,这会在实际解析代码时引起问题,但看起来注释是以精简的方式处理的:一旦注释字符 #
被识别,the tokenizer just grabs and discards characters until it sees a newline or EOF
,它根本不会尝试对它们做任何事情(这是有道理的;解析注释只是在浪费时间,而这些时间本可以花在实际运行的东西上)。
因此,您观察到的行为是:编码声明禁用了严格的文件范围字符,通过字符检查在没有显式声明编码时应用有效的 UTF-8,并且注释是特殊的,因此它们的内容被忽略,允许注释中的垃圾字节逃避检测。
关于python - Python 编译器如何使用声明的编码预处理源文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46779898/
我有一个项目,其中包含两个源文件和一个头文件(其中包含名为 Get.c 的源文件之一中定义的函数的原型(prototype)),问题是: 当我在另一个源文件中包含 Get.c 时,它给出了错误 错误:
有没有尽可能多的语法结构的java源代码文件? java 编译器的某种测试文件。我需要该文件来测试 java 源代码解析器。 最佳答案 看看 Java Compatibility Kit ,特别Tec
尝试在命令提示符下编译时,我在使用 codeblocks-16.01mingw-setup.exe - 安装在路径不包含空格的文件中时遇到问题。初学者指南建议在命令提示符中使用以下行: gcc car
我编写了一个使用 Cryptopp 库的程序。我已经创建了静态库并将其包含在我的分发版中,但是该程序还需要很多头文件。我的问题是我需要在我的发行版中包含所有这些头文件吗? 例如,我编写了一个代码,其中
我在源代码树中有 protobuf 原型(prototype)文件。我想在每次更改和首次运行时从原型(prototype)文件生成源文件(例如,我创建新的原型(prototype)文件)。然后,我想从
我知道在 Java 中加载文件而不指定要使用的编码是平台相关的。但我的问题是关于 .java 源文件本身中包含的文本:用于这些文件的编码是否仍然相关一旦编译? 例如,如果我在 Windows 上有一个
编辑:{ 我想我在这里添加了很多(太多)信息(阅读)。我想要的是: 我正在使用一个网站(没有.csproj文件) 我需要多个源代码文件才能运行我的aspx 据我所知,当请求aspx文件时,我要么需要使
我从 Asio 的示例页面中获取了以下代码 class tcp_connection : public boost::enable_shared_from_this { public: t
我已经使用 VS2010 为我的 C++ 应用程序创建了一个 Windows 安装部署。但是我的问题是我不知道如何将我自己的一些代码压缩到安装向导中(这可能吗?)。问题是在安装过程中我想要: 要求用户
最近我创建了一个 bash 脚本,我应该在 cron 中运行它。 准备好bash脚本并正常运行后,我将其放入Cron中,发现它失败了。作为第二步,我删除了所有环境依赖项,即我指定的不是 file.tx
考虑以下场景 例子.txt: ÄäÖöÜü Java 源代码: try (FileInputStream fileInputStream = new FileInputStream("example.
背景我主要使用嵌入式 C/C++ 进行编程,但有时我必须为我们的 API 进行一些 C# 编程。为此,我使用 Visual Studio 2017 为我们的客户创建 API DLL。 C# API 和
这个问题在这里已经有了答案: ggplot's qplot does not execute on sourcing (1 个回答) 关闭 9 年前。 考虑这种形式的源文件: # initializ
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我需要读取一个 Racket 源文件并通过宏扩展来运行它。我有一个简单的测试文件,Racket 本身很乐意接受: C:\ayane>type factorial.rkt #lang racket (p
我的源文件位于此文件夹中:c:\data\mycompany。我的所有源文件的第一行都包含以下内容:package mycompany;现在,我从 c:\data 文件夹中使用以下命令编译了所有内容:
这个问题在这里已经有了答案: #include all .cpp files into a single compilation unit? (6 个回答) The benefits / disadv
我对这个 JAVA RMI 项目真的很陌生。我只是想知道我可以使用什么编译器来编译我的JAVA源代码?以及如何做到这一点? 我正在尝试编译来自 http://www.eg.bucknell.edu/~
我想使用 Subversion 并仅 check out 源文件(例如:仅 check out .c 、 .cpp 和 .h 文件)。这可能吗 ?如果是这样,我该怎么做? 我正在尝试从以下位置获取 w
有没有办法使用指向唯一头文件的不同配置(或不同方法)来设置单个项目。 我想创建一个包含两个头文件的 C 项目(例如 header1.h 和 header2.h)。在我的 .c 源文件中,我定义了两个配
我是一名优秀的程序员,十分优秀!