gpt4 book ai didi

r - dplyr过滤条件以区分unicode符号及其unicode表示形式

转载 作者:行者123 更新时间:2023-12-03 16:15:32 25 4
gpt4 key购买 nike

我正在尝试根据是否为\uxxxx形式来过滤Symbol列

这在视觉上很容易,即有些看起来像$¢£,而另一些看起来像\u058f\u060b\u07fe

但是我似乎无法使用stringi/dplyr弄清楚

library(dplyr)
library(stringi)

df <- structure(list(Character = c("\\u0024", "\\u00A2", "\\u00A3",
"\\u00A4", "\\u00A5", "\\u058F", "\\u060B", "\\u07FE", "\\u07FF",
"\\u09F2", "\\u09F3", "\\u09FB", "\\u0AF1", "\\u0BF9", "\\u0E3F",
"\\u17DB", "\\u20A0", "\\u20A1", "\\u20A2", "\\u20A3"),
Symbol = c("$", "¢", "£", "¤", "¥", "\u058f", "\u060b", "\u07fe", "\u07ff",
"৲", "৳", "\u09fb", "\u0af1", "\u0bf9", "฿", "៛", "₠",
"₡", "₢", "₣")), row.names = c(NA, 20L), class = "data.frame")

Character Symbol
1 \\u0024 $
2 \\u00A2 ¢
3 \\u00A3 £
4 \\u00A4 ¤
5 \\u00A5 ¥
6 \\u058F \u058f
7 \\u060B \u060b
8 \\u07FE \u07fe
9 \\u07FF \u07ff
10 \\u09F2 ৲
11 \\u09F3 ৳
12 \\u09FB \u09fb
13 \\u0AF1 \u0af1
14 \\u0BF9 \u0bf9
15 \\u0E3F ฿
16 \\u17DB ៛
17 \\u20A0 ₠
18 \\u20A1 ₡
19 \\u20A2 ₢
20 \\u20A3 ₣

我尝试过的

我尝试在 nchar上使用变体,但还没有运气

df$Symbol %>% nchar
# [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

df$Symbol %>% stri_unescape_unicode %>% nchar
# [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

df$Symbol %>% stri_escape_unicode %>% nchar
# [1] 1 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6


问题

如何在符号列上过滤 $¢£等格式的所有行(以及相反地过滤 \u058f\u060b\u07fe之类的行)?

最佳答案

编辑:

为此,设计了glyphs_match()包中的函数gdtools,但使用它并没有完全返回预期的结果。我使用Lucida Console作为我的字体,并在使用glyphs_match()时获得以下输出。似乎有一个未渲染的字形,但是该字形函数返回TRUE。也许其他用户可以解释为什么会这样。

df$glyph_match <- gdtools::glyphs_match(df$Symbol, fontfile = "C:\\WINDOWS\\Fonts\\lucon.TTF")
df

Character Symbol glyph_match
1 \\u0024 $ TRUE
2 \\u00A2 ¢ TRUE
3 \\u00A3 £ TRUE
4 \\u00A4 ¤ TRUE
5 \\u00A5 ¥ TRUE
6 \\u058F <U+058F> FALSE
7 \\u060B <U+060B> FALSE
8 \\u07FE <U+07FE> FALSE
9 \\u07FF <U+07FF> FALSE
10 \\u09F2 <U+09F2> FALSE
11 \\u09F3 <U+09F3> FALSE
12 \\u09FB <U+09FB> FALSE
13 \\u0AF1 <U+0AF1> FALSE
14 \\u0BF9 <U+0BF9> FALSE
15 \\u0E3F <U+0E3F> FALSE
16 \\u17DB <U+17DB> FALSE
17 \\u20A0 <U+20A0> FALSE
18 \\u20A1 ¢ TRUE
19 \\u20A2 <U+20A2> FALSE
20 \\u20A3 <U+20A3> TRUE

较早的答案-可能仅在Windows上有效:

具体取决于您的字体/系统,例如,在运行代码时,我的输出与您提供的内容不匹配:
df <- structure(list(Character = c("\\u0024", "\\u00A2", "\\u00A3", 
"\\u00A4", "\\u00A5", "\\u058F", "\\u060B", "\\u07FE", "\\u07FF",
"\\u09F2", "\\u09F3", "\\u09FB", "\\u0AF1", "\\u0BF9", "\\u0E3F",
"\\u17DB", "\\u20A0", "\\u20A1", "\\u20A2", "\\u20A3"),
Symbol = c("$", "¢", "£", "¤", "¥", "\u058f", "\u060b", "\u07fe", "\u07ff",
"৲", "৳", "\u09fb", "\u0af1", "\u0bf9", "฿", "៛", "₠",
"₡", "₢", "₣")), row.names = c(NA, 20L), class = "data.frame")

df
Character Symbol
1 \\u0024 $
2 \\u00A2 ¢
3 \\u00A3 £
4 \\u00A4 ¤
5 \\u00A5 ¥
6 \\u058F <U+058F>
7 \\u060B <U+060B>
8 \\u07FE <U+07FE>
9 \\u07FF <U+07FF>
10 \\u09F2 <U+09F2>
11 \\u09F3 <U+09F3>
12 \\u09FB <U+09FB>
13 \\u0AF1 <U+0AF1>
14 \\u0BF9 <U+0BF9>
15 \\u0E3F <U+0E3F>
16 \\u17DB <U+17DB>
17 \\u20A0 <U+20A0>
18 \\u20A1 ¢
19 \\u20A2 <U+20A2>
20 \\u20A3 <U+20A3>

但是捕获字形是否存在的一种粗略方法是:
 nchar(capture.output(cat(df$Symbol, sep = "\n"))) == 1

[1] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[18] TRUE FALSE FALSE

因此可以通过以下方式过滤字形:
library(dplyr)

df %>%
filter(nchar(capture.output(cat(Symbol, sep = "\n"))) == 1)

Character Symbol
1 \\u0024 $
2 \\u00A2 ¢
3 \\u00A3 £
4 \\u00A4 ¤
5 \\u00A5 ¥
6 \\u20A1 ¢

关于r - dplyr过滤条件以区分unicode符号及其unicode表示形式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60749705/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com