gpt4 book ai didi

r - 如何在R中的Unicode字符串中找到 "real"个字符数

转载 作者:行者123 更新时间:2023-12-04 12:37:26 24 4
gpt4 key购买 nike

我知道如何在 R 中找到非 Unicode 字符串的长度。

nchar("ABC")

(感谢在这里回答问题的每个人: How to find the length of a string in R?)。

但是Unicode字符串呢?

如何在Unicode字符串中找到字符串的长度(字符串中的字符数)?如何在 R 中的 Unicode 字符串中找到长度(以字节为单位)和字符数( rune 、符号)?

最佳答案

您可以使用 ncharcharacters的数量而对于bytes的数量:

nchar("bi\u00dfchen", type="chars")
#[1] 7
nchar("bi\u00dfchen", type="bytes")
#[1] 8
实际上,在帮助中,您可以找到有关如何计算字符串大小的详细信息:

The ‘size’ of a character string can be measured in one of three ways (corresponding to the type argument):

bytes: The number of bytes needed to store the string (plus in C a final terminator which is not counted).

chars: The number of human-readable characters.

width: The number of columns cat will use to print the string in a monospaced font. The same as chars if this cannot be calculated.


如果您想知道字符串中可能(或可能不)包含 unicode(即不解释 unicode 符号)的“符号”的数量,您可以使用函数 stri_escape_unicode来自包裹 stringi :
library(stringi)
nchar(stri_escape_unicode("bi\u00dfchen")) # same as stri_length(stri_escape_unicode("bi\u00dfchen"))
# [1] 12

关于r - 如何在R中的Unicode字符串中找到 "real"个字符数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42481827/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com