R、Windows 和外语字符-6ren

R、Windows 和外语字符

转载作者：可可西里更新时间：2023-11-01 10:04:58

26

4

这一直是 R 的一个长期问题:它可以在 Unix 上读取非拉丁字符，但我无法在 Windows 上读取它们。这些年来，我已经在几台英文版 Windows 机器上重现了这个程序。我试过更改 Windows 和许多其他本地化设置，但没有任何效果。有没有人真正能够在 Windows 上读取外国文本文件？我认为能够读/写/显示 unicode 是程序的一个非常漂亮的功能。

环境:

 > Sys.getlocale()[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

The problem can be reproduced as follows:

Create simple file in a language like Russian or Arabic in a text editor and save it as UTF-8 w/o BOM.

> test_df <- read.table("test2.txt",header=FALSE, sep=";", quote="",fill=FALSE, 
encoding="UTF-8",comment.char="",dec=",")
......Warning message:
......In read.table("test2.txt", header = FALSE, sep = ";", quote = "",  :
......incomplete final line found by readTableHeader on 'test2.txt'
> test_df
......                    V1 V2
......1 <U+043E><U+0439>!yes  9

使用 read.csv() 产生相同的结果，但没有警告。我意识到“”既可搜索又可通过外部程序转换为可读字符。但我想在图表、表格、输出等中看到实际的西里尔文字，就像我在我使用过的所有其他程序中一样。

所以我多年来一直遇到这个问题，一直如此。昨天早上，我尝试了以下操作:

test_df <- read.table("items.txt",header=FALSE, sep=";",quote="",fill=FALSE,
encoding="bytes",comment.char="",dec=",")

encoding="bytes" 成功了!我在控制台看到了西里尔字母。然后我不得不重新安装 R(相同的版本，相同的计算机，相同的一切)，解决方案消失了。我实际上已经回溯了我所有的步骤，这似乎很神奇。现在 encoding="bytes"，只产生与 encoding="pizza" 相同的垃圾 (РєРѕРЅСЊСЏРє)(参数被忽略)。

read.table 还有一个fileEncoding 参数。我不确定它是如何工作的，但它也不起作用，甚至无法阅读英文文本。

您可以在 Windows PC 上读取非 ASCII 文本文件吗？你到底是怎么做到的？

最佳答案

尝试设置语言环境。例如，

Sys.setlocale(locale = "Russian")

有关详细信息，请参阅 ?Sys.setlocale。

关于R、Windows 和外语字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33883030/

26

4

0

文章推荐： python - 是否可以在同一更新中多次使用 $addToSet？

文章推荐： java - 在 mongoDB 集合上设置 ttl - 在应用程序或 shell 中？

文章推荐： windows - 从 setlocal 代码中传递变量

外语 Java 属性文件
例如，日语、unicode 或 HTML 编码的属性中的字符串的正确格式是什么？例如，其中哪一个使用正确？ title=パートナー
java - mysql查询韩语(外语)单词坏了
现在我正在使用 spring 框架 + java + mysql(maria db)执行 select query(for searching) 时，没有问题但是当用韩语 (utf-8) 词搜索时那个
python - 外语 Chatterbot 网络应用程序
我的目标是编写某种会说西类牙语的聊天机器人。我见过简单的 python 聊天机器人的示例，但它们的答案大多只是随机的。我希望机器人能够部分理解问题并制定回应，例如 http://cleverbot.c
python - 从python中的unicode(外语)段落中提取主题标签
我正在尝试开发一个从段落中提取主题标签的函数，基本上是以#开头的单词 (#cool #life #cars #سيارات) 我已经尝试了几种方法，例如使用 split() 和使用正则表达式，但没有尝
Python:从明文(外语)工作日获取日期
我希望检索字符串中包含的工作日的下一个可能日期。复杂之处在于这个工作日将使用外语(sv_SE)。在 bash 中我可以使用“dateround”解决这个问题: startdate=$(daterou
html - NetSuite 高级 PDF 外语
我需要在高级 PDF 上显示数据，其中字段包含英文和中文字符。英文显示正常，但中文不出现。有哪些选项可以让汉字也出现？最佳答案 NetSuite 在后台使用名为 BFO 的库来呈现 PDF。 Use
ios - 发布一个具有多个(外语)名称的 iOS 应用程序？
是否可以重新发布具有不同标题的现有 iOS 应用程序？该应用程序支持多种语言，但在应用商店中只有一个英文标题。我的想法很可能是任性的，我的潜在俄罗斯/印度/中国/法国观众看不到它。听起来不像是 A

首页

博学

6Ren·AI

商城

R、Windows 和外语字符