gpt4 book ai didi

xml - 竖线 (|) Unicode 替换

转载 作者:数据小太阳 更新时间:2023-10-29 01:59:36 29 4
gpt4 key购买 nike

我们在其中一个模块中使用竖线 | (|) 字符作为字段分隔符。所以用户不应该在标题中使用这个字符。

如果他们确实使用它,我想用类似的字符替换它。

它有 Unicode 替代品吗? 我找到的唯一一个看起来与它相似的字符是断开的竖线 ¦ (¦ )。

最佳答案

我不明白你真正需要什么。您是否需要将分隔符序列更改为保证不存在于数据集中的内容?

如果是这样,那么 Unicode 的 66 个“非字符”代码点就是专门为此设计的。您可以将它们用作内部哨兵,因为它们不会出现在有效数据中。

如果您只是在寻找视觉上的相似之处,那就大不相同了。我不建议这样做,因为有很多容易混淆的地方。这里只是其中的一部分:

U+0007C ‭ |  GC=Sm SC=Common       VERTICAL LINE
U+000A6 ‭ ¦ GC=So SC=Common BROKEN BAR
U+002C8 ‭ ˈ GC=Lm SC=Common MODIFIER LETTER VERTICAL LINE
U+002CC ‭ ˌ GC=Lm SC=Common MODIFIER LETTER LOW VERTICAL LINE
U+02016 ‭ ‖ GC=Po SC=Common DOUBLE VERTICAL LINE
U+023D0 ‭ ⏐ GC=So SC=Common VERTICAL LINE EXTENSION
U+02758 ‭ ❘ GC=So SC=Common LIGHT VERTICAL BAR
U+02759 ‭ ❙ GC=So SC=Common MEDIUM VERTICAL BAR
U+0275A ‭ ❚ GC=So SC=Common HEAVY VERTICAL BAR
U+02AF4 ‭ ⫴ GC=Sm SC=Common TRIPLE VERTICAL BAR BINARY RELATION
U+02AF5 ‭ ⫵ GC=Sm SC=Common TRIPLE VERTICAL BAR WITH HORIZONTAL STROKE
U+02AFC ‭ ⫼ GC=Sm SC=Common LARGE TRIPLE VERTICAL BAR OPERATOR
U+02AFE ‭ ⫾ GC=Sm SC=Common WHITE VERTICAL BAR
U+02AFF ‭ ⫿ GC=Sm SC=Common N-ARY WHITE VERTICAL BAR
U+0FF5C ‭ | GC=Sm SC=Common FULLWIDTH VERTICAL LINE
U+0FFE4 ‭ ¦ GC=So SC=Common FULLWIDTH BROKEN BAR

关于xml - 竖线 (|) Unicode 替换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10572627/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com