gpt4 book ai didi

ruby - 将 unicode 字符与 unicode 字符范围进行比较时的异常行为

转载 作者:数据小太阳 更新时间:2023-10-29 07:53:48 26 4
gpt4 key购买 nike

出于某种原因,我在 unicode 字符的范围比较中得到了意想不到的结果。

总而言之,在我最小化的测试代码中,("\u1000".."\u1200") === "\u1100"false ,我希望它是 true -- 而针对 "\u1001" 的相同测试是true正如预期的那样。我觉得这完全不可理解。 <的结果运算符也很有趣——它们与 === 相矛盾.

以下代码是一个很好的最小说明:

# encoding: utf-8

require 'pp'

a = "\u1000"
b = "\u1200"

r = (a..b)

x = "\u1001"
y = "\u1100"

pp a, b, r, x, y

puts "a < x = #{a < x}"
puts "b > x = #{b > x}"

puts "a < y = #{a < y}"
puts "b > y = #{b > y}"

puts "r === x = #{r === x}"
puts "r === y = #{r === y}"

我会天真地期望这两个 ===操作会在这里产生“真”。然而,运行这个程序的实际输出是:

ruby 1.9.3p125 (2012-02-16 revision 34643) [x86_64-darwin11.3.0]
"\u1000"
"\u1200"
"\u1000".."\u1200"
"\u1001"
"\u1100"
a < x = true
b > x = true
a < y = true
b > y = true
r === x = true
r === y = false

谁能教教我?

(请注意,我在 Mac OS X 上使用的是 1.9.3,并且我明确将编码设置为 utf-8。)

最佳答案

行动:我已将此行为提交为 bug #6258 to ruby-lang .

该字符范围内的整理顺序有些奇怪

irb(main):081:0> r.to_a.last.ord.to_s(16)
=> "1036"
irb(main):082:0> r.to_a.last.succ.ord.to_s(16)
=> "1000"
irb(main):083:0> r.min.ord.to_s(16)
=> "1000"
irb(main):084:0> r.max.ord.to_s(16)
=> "1200"

范围的最小值和最大值是您输入的预期值,但如果我们将范围转换为数组,则最后一个元素是“\u1036”,它的后继元素是“\u1000”。在幕后,Range#=== 必须枚举 String#succ序列而不是对最小值和最大值进行简单的边界检查。

如果我们查看 Range#=== 的来源(点击切换)我们看到它发送到 Range#include? .范围#include? source 显示了对字符串的特殊处理——如果答案可以单独由字符串长度确定,或者所有 invloved 字符串都是 ASCII,我们将进行简单的边界检查,否则我们将发送给 super,这意味着 #include?由 Enumerable#include? 回答枚举使用 Range#each它再次对字符串进行特殊处理并发送到 String#uptoString#succ 枚举.

String#succ 在字符串包含 is_alpha 或 is_digit 数字时有一系列特殊处理(对于 U+1036 不应该为真),否则它会使用 enc_succ_char 递增最终字符。此时我失去了踪迹,但大概这会使用与字符串关联的编码和排序规则信息来计算后继者。

顺便说一句,作为一种解决方法,如果您只关心单个字符,则可以使用一系列整数序数并针对序数进行测试。例如:

r = (a.ord..b.ord)
r === x.ord
r === y.ord

关于ruby - 将 unicode 字符与 unicode 字符范围进行比较时的异常行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10020230/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com