gpt4 book ai didi

swift - 为什么 Swift String.Index 的索引值比实际值大 4 倍?

转载 作者:搜寻专家 更新时间:2023-10-31 08:29:59 26 4
gpt4 key购买 nike

我试图在 Swift Playground 中实现 Boyer-Moore 算法,我经常使用 Swift String.Index,但开始困扰我的是为什么索引比看起来应该大 4 倍。

例如:

let why = "is s on 4th position not 1st".index(of: "s")

Swift Playground 中的这段代码将生成 _compoundOffset 4 而不是 1。我确定这样做是有原因的,但我在任何地方都找不到解释。

这不是任何解释如何在 Swift 中获取 char 索引的问题的重复,我知道,我使用 index(of:) 函数只是为了说明问题。我想知道为什么在使用 String.Index 时第二个字符的值是 4 而不是 1。

所以我猜它保持索引的方式是私有(private)的,我不需要知道内部实现,它可能与 UTF16 和 UTF32 编码有关。

最佳答案

首先,永远不要假设 _compoundOffset 只是一个实现细节。 _compoundOffsetString.Index 的内部属性,它使用位掩码在这个数字中存储两个值:

  • encodedOffset,它是索引在 UTF-16 代码单元方面的字节偏移量。这是公开的,可以信赖。在您的情况下 encodedOffset1 因为这是该字符的偏移量,以 UTF-16 代码单元衡量。请注意,字符串在内存中的编码无关紧要! encodedOffset 始终为 UTF-16。

  • transcodedOffset,它存储当前 UTF-16 代码单元的索引偏移量。这也是您无法访问的内部属性。对于大多数索引,该值通常为 0,除非您在字符串的 UTF-8 View 中有一个索引,该索引引用了一个不属于 UTF-16 边界的代码单元。在这种情况下,transcodedOffset 将以字节为单位存储来自 encodedOffset 的偏移量。

现在为什么 _compoundOffset == 4?因为它将transcodedOffset存储在最低两位,encodedOffset存储在最高62位。所以 encodedOffset == 1, transcodedOffset == 0 的位模式是 0b100,也就是 4

你可以验证这一切in the source code for String.Index .

关于swift - 为什么 Swift String.Index 的索引值比实际值大 4 倍?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47153710/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com