gpt4 book ai didi

r - 从字符串中删除 Unicode 替换字符

转载 作者:行者123 更新时间:2023-12-04 14:27:22 24 4
gpt4 key购买 nike

我有一个包含一亿行的数据集,其中大约有 10 行具有某种 Unicode 替换字符。此特定字符的文本表示是“< U+FFFD>”(删除空格),但也有其他字符。

我想删除这个角色,但我想不出办法。

str <- "торгово производственн��я компания"
gsub("<U+FFFD>", "", str)
"торгово производственн��я компания"

如果我需要提供任何其他信息,请告诉我。另外,我将非常感谢您解释这里到底发生了什么(比如为什么普通的 gsub 不起作用以及为什么它会这样显示)

最佳答案

您正在使用 gsub以正则表达式模式作为第一个参数的函数。 <U+FFFD>模式匹配< , 1 个或多个 U符号,然后是 FFFD>字符序列。

它会像这样工作:

> str2 <- "торгово <UUUFFFD> производственн��я компания"
> gsub("<U+FFFD>", "", str2)
[1] "торгово производственн��я компания"

仅使用文字字符串替换:

> str <- "торгово производственн��я компания"
> gsub("\uFFFD", "", str, fixed=TRUE)
[1] "торгово производствення компания"

关于r - 从字符串中删除 Unicode 替换字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42626243/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com