Windows 上的 R : character encoding hell-6ren

Windows 上的 R : character encoding hell

转载作者：行者123 更新时间：2023-12-03 11:01:55

25

4

我正在尝试将编码为 OEM-866(西里尔字符集)的 CSV 导入 Windows 上的 R。我还有一个已转换为 UTF-8 w/o BOM 的副本。一旦指定了编码，我系统上的所有其他应用程序都可以读取这两个文件。

此外，在 Linux 上，R 可以使用指定的编码读取这些特定文件。如果我没有指定“fileEncoding”参数，我也可以在 Windows 上读取 CSV，但这会导致文本不可读。当我在 Windows 上指定文件编码时，对于 OEM 和 Unicode 文件，我总是收到以下错误:

原始 OEM 文件导入:

> oem.csv <- read.table("~/csv1.csv", sep=";", dec=",", quote="",fileEncoding="cp866")   #result:  failure to import all rows
Warning messages:
1: In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  invalid input found on input connection '~/Revolution/RProject1/csv1.csv'
2: In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  number of items read is not a multiple of the number of columns

UTF-8 无 BOM 文件导入:

> unicode.csv <- read.table("~/csv1a.csv", sep=";", dec=",", quote="",fileEncoding="UTF-8") #result:    failure to import all row
Warning messages:
1: In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  invalid input found on input connection '~/Revolution/RProject1/csv1a.csv'
2: In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :
  number of items read is not a multiple of the number of columns

语言环境信息:

> Sys.getlocale()
   [1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

对此负责的 Windows 上的 R 是什么？到目前为止，除了放弃 window 之外，我几乎已经尝试了所有我能做的事情。

谢谢你

(其他失败的尝试):

>Sys.setlocale("LC_ALL", "en_US.UTF-8") #OS reports request to set locale to "en_US.UTF-8" cannot be honored
>options(encoding="UTF-8") #now nothing can be imported  
> noarg.unicode.csv <- read.table("~/Revolution/RProject1/csv1a.csv", sep=";", dec=",", quote="")   #result: mangled cyrillic
> encarg.unicode.csv <- read.table("~/Revolution/RProject1/csv1a.csv", sep=";", dec=",", quote="",encoding="UTF-8") #result: mangled cyrillic

最佳答案

您的问题可能通过将 fileEncoding 更改为 encoding 来解决，这些参数在 read 函数中的工作方式不同(请参阅？read)。

oem.csv <- read.table("~/csv1.csv", sep=";", dec=",", quote="",encoding="cp866")

但是，以防万一，提供更完整的答案，因为可能存在一些不明显的障碍。简而言之:可以在 Windows 上的 R 中使用 Cyrillic(在我的情况下是 Win 7)。

您可能需要尝试一些可能的编码才能使工作正常进行。对于文本挖掘，一个重要的方面是让您的输入变量与数据匹配。 Encoding() 的功能非常有用，参见 iconv()。因此，可以看到您的 native 参数。

Encoding(variant <- "Минемум")

在我的情况下，编码是 UTF-8，尽管这可能取决于系统设置。所以，我们可以用 UTF-8 和 UTF-8-BOM 测试结果，并在 notepad++ 中制作一个测试文件，其中一行拉丁文和一行西里尔文。

UTF8_nobom_cyrillic.csv 和 UTF8_bom_cyrillic.csv

part2, part3, part4
Минемум конкыптам, тхэопхражтуз, ед про

这可以通过以下方式导入到 R 中

raw_table1 <- read.csv("UTF8_nobom_cyrillic.csv", header = FALSE, sep = ",", quote = "\"", dec = ".", fill = TRUE, comment.char = "", encoding = "UTF-8")
raw_table2 <- read.csv("UTF8_bom_cyrillic.csv", header = FALSE, sep = ",", quote = "\"", dec = ".", fill = TRUE, comment.char = "", encoding = "UTF-8-BOM")

这些结果对我来说是 View (raw_table1)中的 BOM 常规西里尔文和控制台中的乱码。

part2, part3, part4
ŠŠøŠ½ŠµŠ¼ŃŠ¼ ŠŗŠ¾Š½ŠŗŃ‹ŠæŃ‚Š°Š¼ Ń‚Ń…Ń¨Š¾ŠæŃ…Ń€Š°Š¶Ń‚ŃŠ

然而，更重要的是，脚本并没有提供对它的访问权限。

> grep("Минемум", as.character(raw_table2[2,1]))
integer(0)

No BOM UTF-8 的结果对于 View (raw_table1)和控制台都是类似的。

part2, part3, part4
<U+041C><U+0438><U+043D><U+0435><U+043C><U+0443><U+043C> <U+043A><U+043E><U+043D><U+043A><U+044B><U+043F><U+0442><U+0430><U+043C> <U+0442><U+0445><U+044D><U+043E><U+043F><U+0445><U+0440><U+0430><U+0436><U+0442><U+0443><U+0437> <U+0435><U+0434> <U+043F><U+0440><U+043E>

然而，重要的是，搜索里面的词会产生正确的结果。

> grep("Минемум", as.character(raw_table1[2,1]))
1

因此，可以在 Windows 中使用非标准字符，具体取决于您的确切目标。
我经常使用非英语拉丁字符，UTF-8 允许在 Windows 7 中正常工作。 “WINDOWS-1252”对于导出到 Microsoft 阅读器(如 Excel)非常有用。

PS 俄语词是在这里生成的 http://generator.lorem-ipsum.info/_russian ，所以本质上没有意义。
PPS 你提到的警告仍然没有明显的重要影响。

关于Windows 上的 R : character encoding hell，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18789330/

25

4

0

文章推荐：带有长线的 Markdown 表

文章推荐： twitter-bootstrap - Bootstrap 3 中响应式导航栏的问题

文章推荐： scala - "case"匿名函数如何在 Scala 中真正工作？

haskell - cabal 的依赖 hell 。真的是 hell
不同的编程语言使用不同的打包系统。 Java 的 Maven 采用各种不同的方法。对我来说似乎是最好的选择，因为它在不同版本的文件夹中维护不同版本的 jar 文件，因此，没有办法最终导致库的版本冲突。
javascript - "JavaScript Hell"- 像 "DLL Hell"
这个问题已经有答案了: force browsers to get latest js and css files in asp.net application (23 个回答) 已关闭 7 年前。
javascript - 使用回调 hell 将构建转换为 promise hell
我目前正在将带有一些回调 hell 的构建过程转换为 promise hell ( hell 很可能是因为我是 promises 的新手并且我对 Bluebird 缺乏经验)。我正在努力通过 .all
c++ - hell 图书馆(又名 DLL hell )
在我的一个项目中，我使用了一个动态加载包装器 DLL(导出 C 风格函数)的 Delphi 应用程序，后者又静态链接到一堆第 3 方 DLL。它在我的测试机器上工作正常，但在我的客户计算机上它无法初
java - 我们是否正在走向类似于 dll hell 的 java 平台中的 jar hell ？
昨晚我试图放一个简单的教程来使用堆栈构建应用程序 - Spring(2.5)+ JPA(1.0)+ Hibernate(第一次下载，所以不知道使用哪个版本)。不幸的是，我不想使用 Maven，因为目标
带有M2M字段的Django对象唯一性 hell
class Badge(SafeDeleteModel): owner = models.ForeignKey(settings.AUTH_USER_MODEL,
MySQL空间比较 hell
为什么这个查询: SELECT "hello" = " hello", "hello" = "hello ", "hello" <> "hello ", "hello"
javascript - 如何逃离这个回调 hell
我目前正在尝试从公共(public) API 获取有关一个国家及其邻国的数据，以在我的 html 上呈现。 renderCountry( ) 是一个函数，用于在我的 html 上实现我将收到的数据。
flutter - 静态打字 hell
我的背景是 Python，在 Python 中，您将所有事物都视为鸭子，并且无需定义类型。我最近开始使用 Dart 编写代码，现在我遇到了这些类型转换问题。下面的代码有什么问题？ appendCsv
Python 目录 hell
这是我的目录结构: ├── src │ ├── helpers │ │ ├── __init__.py │ │ ├── foo.py │ │ └── bar.py │
分支 hell ，风险与生产力的临界点在哪里？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 提供事实和引用来回答它. 2年前关闭。 Improve this
Haskell 依赖 hell
我正在尝试在 Haskell 项目中包含特定版本的库。该库是住宿加早餐型的(用于 martix 操作)，但我需要特定的 0.4.3 版本，该版本修复了乘法实现的错误。所以，我的 stack.yaml
iphone - 配置文件 hell
我偶尔会遇到一个问题，即为设备配置开发版本的应用程序。错误消息通常是“找不到此可执行文件的有效配置文件”。我已遵循所有 Apple 说明:我拥有有效的开发证书，开发人员配置文件包含相关设备的设备 I
c# - 如何解决dotnet核心中的nuget依赖 hell ？
我正在开发具有少数不同项目的 asp.net 核心解决方案，每个项目都使用某个版本库的 3rd 方 NuGet 包。这些版本，例如1.0.0 和 2.0.0，有重大变化。另外，这个库是由另一个项目团队
delphi - 自定义组件依赖 hell
我正在尝试为我制作的自定义组件制作一个包。它基于多个库，包括 Graphics32、GraphicEx 和 CCR.Exif。我创建了一个Package项目，编写了包括其Register过程的单元，
javascript - 模块化从技术上如何解决nodejs中的回调 hell
在研究 NodeJS 中的“回调 hell ”时，我得到了很多推荐相同内容的网站。浅层函数、模块化，以及一些工具，如 Promise、异步和生成器。从技术上讲，我知道什么是回调，也知道为什么在 No
python - 避免对Docker产生依赖 hell
我使用Python构建了一个AI应用程序，其中涉及大量的Python库。此时，我想在Docker容器中运行我的应用程序以使AI App成为服务。关于依赖项，我有哪些选择，以便自动下载所有必需的库？
ssh - hell AesCtrCryptoTransform
谁能提供 SecurityDriven.Inferno AesCtrCryptoTransfom 的使用示例类(class) ？该库似乎很有前途，但我无法找到任何使用它的代码，并且提供的详细信息对我
r - 用公式引用 hell
我有一个需要重复执行的任务，因此我尝试为其编写一个函数。我的函数几乎完成了，除了一个缺陷:我无法将公式作为参数传递，除非它是字符串的形式。 library(lme4) library(lazyeval
java - 不使用重量级框架如何解决Jar hell？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques

首页

博学

6Ren·AI

商城

Windows 上的 R : character encoding hell