gpt4 book ai didi

unicode - Unicode有没有特殊的标记符?

转载 作者:行者123 更新时间:2023-12-05 07:37:28 24 4
gpt4 key购买 nike

我父亲在 90 年代中期为他公司的计算机创建了一种编码,用于他的工程目的。它接近 ISO 8859-2(拉丁语 2),但有一些差异。

例如添加了一个特殊的“MARKER CHARACTER”。该字符未确定为文字,但也不是控制字符。

这个字符的目的是在需要将文本分成几部分时由机器插入。请参阅以下 Python 解析器脚本:

re.sub(r'\{\{', r'~{{', text)
re.sub(r'\[\[', r'~[[', text)
re.sub(r'\]\]', r']]~', text)
re.sub(r'\}\}', r'}}~', text)
parts = text.strip('~').split('~')
inCurly = [False]
inSharp = [False]
whereAmI = ['']

for part in parts:
if part[:2] == '{{':
inCurly.append(True)
whereAmI.append('Curly')
elif part[:2] == '[[':
inSharp.append(True)
whereAmI.append('Sharp')

if whereAmI[-1] == 'Sharp' and not inCurly[-1]:
# some advanced magic on current part,
# if it is directly surrounded by sharp brackets,
# but these sharp brackets are not in curly brackets anyhow
# (not: "{{ (( [[ some text ]] )) }}")

# detecting closing brackets and popping inSharp, inCurly, whereAmI
# joining parts back to text

这是一个用于高级用途的简单解析器,您可以根据需要检测更多的括号或引号。但这有一个很大的错误。当 ~ 出现在文本中时,它会破坏一切。

为了这个目的和类似的目的(但我认为是在 C 语言中),他在他的编码/字符集中添加了那个标记字符。

多年来,我为此目的使用了三个德语“sharp s”:ßßß,因为几乎不可能连续看到三个。但这不是一个理想的解决方案。

昨天我父亲给我讲了这个故事,我立刻想到:Unicode 系列中是否有一些等价物? Unicode是近十年来迅速风靡全局的现代发展标准。是否应该仅针对此特定目的使用特殊字符?

最佳答案

我不认为有什么特别的称呼,但您可能会发现零宽度空格信息分隔符 等,适合此目的。您可以任意选择任何字符作为标记,如果它出现在字符串中,则使用转义字符。

在控制图片 block 中,有一个用于组分隔符的符号。

关于unicode - Unicode有没有特殊的标记符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48596275/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com