作者热门文章
- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个乌尔都语单词“لاعلم”和更多类似的单词。我怎样才能把我得到的单词分别放在一个数组中?我已尝试将单词转换为 unicode 字符,但我无法检测到“لا”和“علم”之间的中断。
可以很容易地根据空格分隔英语单词,但我坚持分隔没有空格的乌尔都语单词。
最佳答案
没有空格,因为它只有一个词,意思是“无知”。事实上,“لا”和“علم”分开是没有任何意义的。
在乌尔都语(和阿拉伯文字)中插入空格是为了在字体自动将其与相邻字符连在一起时区分单词。撤消连字的唯一方法是在字符之间插入多余的空格。 ZERO WIDTH NON-JOINER (U+200C) 从技术上讲,正是为了这个目的,但人类学习缓慢,空间容易插入。
有些字符不与后续字母连接,例如,“ا”不会与任何后续字符连接,但可以与前面的字符(如“ل”)形成连字“لا”。你可以用这个 list字符(阿拉伯语的相同规则)并编写一个自定义音调器,在“右连接”字符、ZWNJ 或空格之后结束单词。
关于c# - 根据不存在的空间拆分乌尔都语单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34103562/
我是一名优秀的程序员,十分优秀!