gpt4 book ai didi

r - 处理 R 中带有变音符号的字符数

转载 作者:行者123 更新时间:2023-12-04 20:38:41 25 4
gpt4 key购买 nike

我正在尝试使用带有变音符号的字符获取字符串中的字符数,但我无法获得正确的结果。

> x <- "n̥ala"
> nchar(x)
[1] 5

我想得到的是 4 , 自 应该被视为一个字符(即变音符号不应单独被视为字符,即使在一个基本字符上堆叠了多个变音符号)。

我怎样才能得到这种结果?

最佳答案

这是我的解决方案。这个想法是语音字母可以有一个 unicode 表示,然后:

使用 Unicode包裹;它提供功能 Unicode_alphabetic_tokenizer那:

Tokenization first replaces the elements of x by their Unicode character sequences. Then, the non- alphabetic characters (i.e., the ones which do not have the Alphabetic property) are replaced by blanks, and the corresponding strings are split according to the blanks.



在此之后我使用了 nchar但是因为将它拆分为前一个函数的两个子字符串,我使用了 sum .
sum(nchar(Unicode_alphabetic_tokenizer(x)))
[1] 4

我相信这个包在这种情况下非常有用,但我不是专家,我不知道我的解决方案是否适用于所有涉及语音字母的问题。也许其他示例可能有助于说明我的解决方案的有效性。

它运作良好

这是另一个例子:
> x <- "e̯ ʊ̯"
> x
[1] "e̯ ʊ̯"
> nchar(x)
[1] 5
> sum(nchar(Unicode_alphabetic_tokenizer(x)))
[1] 2

附言
只有一个 "在代码中但复制和粘贴它,第二个出现。我不知道为什么会发生这种情况。

关于r - 处理 R 中带有变音符号的字符数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30550315/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com