作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道 Unicode 字符串(泰米尔语)中有多少个字符,然后检查字符 1 和字符 2 是否出现特定的情况。
我能够将单词拆分为字符,但我不知道如何使用单词长度逐个字符地遍历它们。
Example : word : "எஃகு".
It should return no of characters as 3, and I should be able to print word[0] as 'எ', word[1] as 'ஃ' and word[2] as 'கு'.
我想检查一下:
if word[0] is a vowel:
if word[1] is "ஃ":
then print word[0]+word[1]+word[3] (as எஃகு)
else:
print word[0]
我想使用 no of 个字符进行遍历,如果 no.of.char 是 3,那么 i=0 应该可以帮助我处理 'எ'。
我看到很多有关Unicode字符处理和长度处理的问题。但它们要么返回字节长度,要么给出不同的结果。所以我很困惑。
我用于按字符拆分它们的代码:
for line in f.readlines():
letters = utf8.get_letters(line)
for letter in letters:
ff.write(unicode(letter))
ff.write(' ')
示例输入文件:
அன்று
அதாவது
அஃதான்று
示例输出文件:
அ ன் று
அ தா வ து
அ ஃ தா ன் று
最佳答案
封装
pip install Open-Tamil
代码
from tamil import utf8
string = u"எஃகு"
letters = utf8.get_letters(string)
print(len(letters))
# 3. Not 4.
print(letters)
# [u'\u0b8e', u'\u0b83', u'\u0b95\u0bc1']
for letter in letters:
print(letter)
# எ
# ஃ
# கு
关于python - 如何在Python中逐个字符地遍历unicode泰米尔语单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23926674/
我是一名优秀的程序员,十分优秀!