gpt4 book ai didi

r - 如何在 R 中使用 grep 搜索西类牙语单词 conteined ñ ?

转载 作者:行者123 更新时间:2023-12-01 23:05:33 25 4
gpt4 key购买 nike

我想使用 grep 搜索像“España”这样的西类牙语单词,例如:

neg_14<-grep("CataluñaesEspaña",doc0$text,ignore.case=TRUE)

但是正确的编码是什么?字母“ñ”的正确书写形式是什么?非常感谢

我要分析的文本是:

str(doc0$text)
chr [1:2858732] "RT directe indirectecat Una nit dencartellada o perqu guanyarem http//tco/Sp09q6MVvq" ...

如果我使用这个命令:

Encoding(doc0$text)

输出全部“未知”。我在 Linux 中工作

最佳答案

这是一个包含所有未知编码的向量:

> places
[1] "España" "Scotland" "CataluñaesEspaña" "Birmingham"
[5] "France" "CataluñaesEspaña"
> Encoding(places)
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

我现在必须猜测。是“UTF-16”吗?

> iconv(places, from="UTF-16", to="UTF-8")
[1] NA "捓瑯慬摮" "慃慴畬뇃敡䕳灳썡憱"
[4] "楂浲湩桧浡" "牆湡散" "慃慴畬뇃敡䕳灳썡憱"

嗯,可能不会。是“latin1”吗?

> iconv(places, from="latin1", to="UTF-8")
[1] "España" "Scotland" "CataluñaesEspaña"
[4] "Birmingham" "France" "CataluñaesEspaña"

嗯,接近,但不对。一直都是“UTF-8”吗?

> iconv(places, from="UTF8", to="UTF-8")
[1] "España" "Scotland" "CataluñaesEspaña" "Birmingham"
[5] "France" "CataluñaesEspaña"

嗯,看起来不错!让我们设置一下吧!

> Encoding(places)="UTF-8"
> Encoding(places)
[1] "UTF-8" "unknown" "UTF-8" "unknown" "unknown" "UTF-8"

还有一些未知,因为它们不使用任何特殊字符。

您需要弄清楚您的字符串采用什么编码,然后尝试这个。如果您从 280 万个字符串中选择一些麻烦的字符串,您将能够看到它何时可以工作,而无需 270 万个未知的流过去,这就是为什么我建议您 grep举出一两个带有 ñ 的例子。

关于r - 如何在 R 中使用 grep 搜索西类牙语单词 conteined ñ ?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27233702/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com