gpt4 book ai didi

Ruby 字符串与整数的连接(代码点?)

转载 作者:数据小太阳 更新时间:2023-10-29 08:48:55 24 4
gpt4 key购买 nike

所以,我很无聊,我发现了一个奇怪的不一致之处,我希望找到更多信息。这处理 Ruby 中的字符串连接,特别是附加字符串文档中称为“代码点”的内容。

这里有一些例子:

'' << 233 #=> "é"
'' << 256 #=> "Ā"

现在,奇怪的是,在 IRB 中,这两个示例都有效。但是,如果您在文件中创建一个 ruby​​ 类,加载该文件并执行代码,它就会崩溃。请参阅以下示例:

class MyConcatenationTest
def self.test
'' << 233
'' << 256
end
end

然后在 IRB 中:

load 'my_concatenation_test.rb'  #=> true
MyConcatenationTest.test #=> RangeError: 256 out of char range

所以,我的问题是:为什么这在 IRB 中有效,但当我加载运行同一行代码的脚本时却无效?

如果您更改类,还需要注意一些其他事项:

class MyConcatenationTest
def self.test
'' << 233
#'' << 256
end
end

...然后重新加载/运行该方法,它返回 233 的\x 转义值而不是之前的“é”:

load 'my_concatenation_test.rb'
MyConcatenationTest.test #=> "\xE9"

那么……这是怎么回事?两个字符串具有相同的编码 (UTF-8),将其更改为 ASCII 似乎没有任何区别。

编辑:我应该提到我在上面的示例中使用了 256,因为这是它爆炸的最低数字。很明显,它被吓坏了,因为它无法正确处理高于“\xFF”的任何内容。为了澄清我的问题,我很想知道为什么当代码存在于加载的 ruby​​ 文件中而不存在于 IRB 中时存在此限制。

最佳答案

您使用哪个 ruby​​ 版本?这可能是因为在 ruby​​ 1.9(及更早版本)中,UTF-8 不是默认编码。

将您的文件修改为以下内容建议 ruby​​ 使用 UTF-8 来解析您的文件。

# ~coding: utf-8
class MyConcatenationTest
def self.test
'' << 233
'' << 256
end
end

如果您在 ruby​​ 2.0 中执行该文件,它会在没有 the magic comment 的情况下按预期工作。 ,因为 UTF-8 是 ruby​​ 2.0 中的默认编码。

为什么它在 irb 中有效(即使是 ruby​​ 1.9.3)?

irb 使用 $LANG 环境变量来确定它应该使用哪种编码。我的(也许还有你的?)$LANG 设置为 en_US.UTF-8,这使得 irb 使用 UTF-8 编码。

您可以使用 irb -EISO-8859-1(或其他一些编码)启动您的 irb 以更改它。

$ irb -EISO-8859-1 # start irb with ISO-8859-1 encoding
irb(main):001:0> "".encoding
=> #<Encoding:ISO-8859-1>

关于Ruby 字符串与整数的连接(代码点?),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18773375/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com