gpt4 book ai didi

c# - 根据不存在的空间拆分乌尔都语单词

转载 作者:太空狗 更新时间:2023-10-30 01:16:46 24 4
gpt4 key购买 nike

我有一个乌尔都语单词“لاعلم”和更多类似的单词。我怎样才能把我得到的单词分别放在一个数组中?我已尝试将单词转换为 unicode 字符,但我无法检测到“لا”和“علم”之间的中断。

可以很容易地根据空格分隔英语单词,但我坚持分隔没有空格的乌尔都语单词。

最佳答案

没有空格,因为它只有一个词,意思是“无知”。事实上,“لا”和“علم”分开是没有任何意义的。

在乌尔都语(和阿拉伯文字)中插入空格是为了在字体自动将其与相邻字符连在一起时区分单词。撤消连字的唯一方法是在字符之间插入多余的空格。 ZERO WIDTH NON-JOINER (U+200C) 从技术上讲,正是为了这个目的,但人类学习缓慢,空间容易插入。

有些字符不与后续字母连接,例如,“ا”不会与任何后续字符连接,但可以与前面的字符(如“ل”)形成连字“لا”。你可以用这个 list字符(阿拉伯语的相同规则)并编写一个自定义音调器,在“右连接”字符、ZWNJ 或空格之后结束单词。

关于c# - 根据不存在的空间拆分乌尔都语单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34103562/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com