gpt4 book ai didi

regex - 如何匹配所有国际化文本?

转载 作者:行者123 更新时间:2023-12-02 17:48:40 25 4
gpt4 key购买 nike

我正在执行搜索和销毁任何亚马逊认为令人反感的任务。过去我通过使用 iconv 将“UTF-8”转换为“latin1”来处理这个问题,但我不能在这里这样做,因为它被编码为“未知”:

test <- "Gwena\xeblle M"
> gsub("\xeb","", df[306,"primauthfirstname"] )
[1] "Gwenalle M"
> Encoding(df[306,"primauthfirstname"])
[1] "unknown"

那么什么正则表达式消除了所有\x## 代码?

最佳答案

我相信这种模式应该有效:

pat <- "[\x80-\xFF]"

test <- c("Gwena\xeblle M", "\x92","\xe4","\xe1","\xeb")
gsub(pat, "", test, perl=TRUE)
# [1] "Gwenalle M" "" "" "" ""

解释:

之所以有效,是因为字符类 [\x00-\xFF]" 会匹配 \x## 形式的所有字符。但其中的前半部分——第 0 到第 127(或 007F,十六进制数字)——是 the ASCII characters .所以这是它们的后半部分——第 128 到第 255 个(或者在十六进制模式下第 80FF)——你要搜索并销毁.

关于regex - 如何匹配所有国际化文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11369668/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com