用非重音对应物替换 R 中的重音字符(UTF-8 编码)-6ren

用非重音对应物替换 R 中的重音字符(UTF-8 编码)

转载作者：行者123 更新时间：2023-12-03 11:45:40

26

4

这个问题在这里已经有了答案:

Replace multiple letters with accents with gsub

(11 个回答)

7年前关闭。

我在 R 中有一些包含重音符号的 UTF-8 编码字符串。
例如。string="Hølmer"或 string="Elizalde-González"
R 中有什么好的函数可以用它们的非重音对应物替换这些字符串中的重音字符吗？我在 PHP here 中看到了一些解决方案，但我如何在 R 中做到这一点？

例如。 PHP代码

$unwanted_array = array(    'Š'=>'S', 'š'=>'s', 'Ž'=>'Z', 'ž'=>'z', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A', 'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E',
                            'Ê'=>'E', 'Ë'=>'E', 'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O', 'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U',
                            'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y', 'Þ'=>'B', 'ß'=>'Ss', 'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a', 'æ'=>'a', 'ç'=>'c',
                            'è'=>'e', 'é'=>'e', 'ê'=>'e', 'ë'=>'e', 'ì'=>'i', 'í'=>'i', 'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o',
                            'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y', 'ý'=>'y', 'þ'=>'b', 'ÿ'=>'y' );
$str = strtr( $str, $unwanted_array );

看起来很不错 - 但我将如何在 R 中做到这一点？

最佳答案

下面的答案基本上是从别处取来的。关键是得到你的unwanted_array以正确的格式。您可能想要它作为 list :

unwanted_array = list(    'Š'='S', 'š'='s', 'Ž'='Z', 'ž'='z', 'À'='A', 'Á'='A', 'Â'='A', 'Ã'='A', 'Ä'='A', 'Å'='A', 'Æ'='A', 'Ç'='C', 'È'='E', 'É'='E',
                            'Ê'='E', 'Ë'='E', 'Ì'='I', 'Í'='I', 'Î'='I', 'Ï'='I', 'Ñ'='N', 'Ò'='O', 'Ó'='O', 'Ô'='O', 'Õ'='O', 'Ö'='O', 'Ø'='O', 'Ù'='U',
                            'Ú'='U', 'Û'='U', 'Ü'='U', 'Ý'='Y', 'Þ'='B', 'ß'='Ss', 'à'='a', 'á'='a', 'â'='a', 'ã'='a', 'ä'='a', 'å'='a', 'æ'='a', 'ç'='c',
                            'è'='e', 'é'='e', 'ê'='e', 'ë'='e', 'ì'='i', 'í'='i', 'î'='i', 'ï'='i', 'ð'='o', 'ñ'='n', 'ò'='o', 'ó'='o', 'ô'='o', 'õ'='o',
                            'ö'='o', 'ø'='o', 'ù'='u', 'ú'='u', 'û'='u', 'ý'='y', 'ý'='y', 'þ'='b', 'ÿ'='y' )

您可以使用 iconv 轻松完成此操作或 chartr :

> iconv(string, to='ASCII//TRANSLIT')
[1] "Holmer"

> chartr(paste(names(unwanted_array), collapse=''),
         paste(unwanted_array, collapse=''),
         string)
[1] "Holmer"

否则你必须遍历所有的替换，因为 mapply或类似的不会考虑已被先前 gsub 替换的符号操作。:

# the loop:
out <- string
for(i in seq_along(unwanted_array))
    out <- gsub(names(unwanted_array)[i],unwanted_array[i],out)

结果:

> out
[1] "Holmer"

关于用非重音对应物替换 R 中的重音字符(UTF-8 编码)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20495598/

26

4

0

文章推荐： haskell - Haskell 是否在编译时连接字符串文字？

文章推荐： bower - 安装 bower 包 : "no-json No bower.json file to save to"

文章推荐： apache - 在弹性 beantalk 上配置 apache

PostgreSQL 重音 + 不区分大小写的搜索
我正在寻找一种方法来支持不区分大小写 + 重音不区分搜索的良好性能。到目前为止，我们在使用 MSSql 服务器时没有遇到任何问题，在 Oracle 上我们必须使用 OracleText，而现在我们在
php - 重音 "e"即使在元标记之后也显示为问号
这个问题已经有答案了: Trouble with UTF-8 characters; what I see is not what I stored (5 个回答) 已关闭 5 年前。我刚刚将一个我
linux - 使用反引号/重音/波形符作为修饰键
我正在寻找一种在 Linux 中使用反引号 (`)/波形符 (~) 键和其他一些键创建键盘快捷键的方法。在理想情况下: 按下波形符没有任何作用按下波形符的同时按另一个键会触发(可自定义的)快捷方式
php preg_grep 和元音变音/重音
我有一个由术语组成的数组，其中一些包含重音字符。我像这样做一个 preg grep $data= array('Napoléon','Café'); $result = preg_grep('~' .
.net - DataGridView 过滤器忽略单元格、单词上的变音符号(重音)
我使用 TextBox 在 DataGridView 中进行过滤 image .这是完美的工作。表格的单元格包含 1250 个拉丁字符。我想搜索忽略单元格中单词的重音。例子。如果是文本框 "knjaz
vim - .vimrc 中的键映射(重音)和编码问题
我在 Vim 中遇到一个奇怪的映射问题。我使用的是 Azerty 键盘。在我的 .vimrc 中，我有以下命令可以在段落之间快速移动。 nnoremap _ { vnoremap _ { nnore
javascript - nodejs 中的 Utf8 重音
我尝试读取一个utf8编码的vcf文件，结果是: { "name": "=4A=61=76=69=65=72=20=4C=75=6A=C3=A1=6E", "tel":
mysql - 奇怪的 MYSQL 反引号(重音)
我的数据库中有两个表，info 和 comment，它们的结构如下: info (id(int(10)), name(varchar(80)), ...19 other columns.., phon
linux - Linux 中的 QtWebkit 重音
我使用 QtWebkit 制作了一个应用程序。在同一个 html 页面中，在 Windows 上使用重音符号(西类牙语)时可以正常工作，但在 Linux (Ubuntu) 上则不起作用。我不明白为什
php - 比较两个字符串并忽略(但不替换)重音。 PHP
我有(例如)两个字符串: $a = "joao"; $b = "joão"; if ( strtoupper($a) == strtoupper($b)) { echo $b; } 我希望它是
ruby - 将法语(重音)字符放入 Ruby 文件中
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: invalid multibyte char (US-ASCII) with Rails and Ruby
php - 重写 'pretty URLs' 时如何处理变音符号(重音)
我重写 URL 以包含用户生成的旅游博客的标题。我这样做是为了 URL 的可读性和 SEO 目的。 http://www.example.com/gallery/280-Gorges_du_Tod
c++ - 如何使用 ncurses 获取 UTF-8 重音
我最近安装了新的 Windows 10 build 14393，我想使用新的 linux 子系统。所以我决定学习 ncurses，但我找不到如何从 getch 中获取带有重音符的字符的 UTF-8 代

首页

博学

6Ren·AI

商城

用非重音对应物替换 R 中的重音字符(UTF-8 编码)