r - 为什么在unicode字符串上的as.factor()对于每个操作系统都返回不同的结果？-6ren

r - 为什么在unicode字符串上的as.factor()对于每个操作系统都返回不同的结果？

转载作者：行者123 更新时间：2023-12-04 07:51:04

25

4

为什么此代码:as.factor(c("\U201C", '"3', "1", "2", "\U00B5"))，在每个操作系统上返回因子级别的不同顺序？

在Linux上:
> as.factor(c("\U201C",'"3', "1", "2","\U00B5")) [1] " "3 1 2 µ Levels: µ " 1 2 "3
在Windows上:
> as.factor(c("\U201C",'"3', "1", "2","\U00B5")) [1] " "3 1 2 µ Levels: "3 " µ 1 2
在Mac OS上:
>as.factor(c("\U201C",'"3', "1", "2","\U00B5")) [1] " "3 1 2 µ Levels: "3 " 1 2 µ
我让一些学生提交了一个包含as.numeric(as.factor(dat$var))的RMardkown作业。现在，这不是编码的好方法，但是输出中的不一致会导致很多困惑和浪费时间。

最佳答案

这不仅是Unicode，还不仅仅是R；通常，sort(甚至在* nix命令sort中也可以)是特定于语言环境的。需要通过在所有机器上通过LC_COLLATE(根据@alistaire的注释)设置"C"(大概是Sys.setlocale)来消除差异。

对我而言，在Windows(7)上:

sort(c("Abc", "abc", "_abc", "ABC"))
[1] "_abc" "abc"  "Abc"  "ABC"

而在Linux上(Ubuntu 12.04 ...哇，我需要升级该机器)我得到了

sort(c("Abc", "abc", "_abc", "ABC"))
[1] "abc"  "_abc" "Abc"  "ABC"

通过上述方式设置语言环境

Sys.setlocale("LC_COLLATE", "C")

给

sort(c("Abc", "abc", "_abc", "ABC"))
[1] "ABC"  "Abc"  "_abc" "abc"

在两台机器上都一样。
man的* nix sort页面给出了粗体警告

   *** WARNING *** The locale specified by the  environment  affects  sort
   order.  Set LC_ALL=C to get the traditional sort order that uses native
   byte values.

更新:包括Unicode字符时，我似乎重现了该问题。问题可追溯到 sort-尝试在示例中对向量进行排序。我似乎也无法将语言环境( LC_COLLATE或 LC_CTYPE)更改为 "en_AU.UTF-8"，这将是一个潜在的解决方案。

关于r - 为什么在unicode字符串上的as.factor()对于每个操作系统都返回不同的结果？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39339489/

25

4

0

文章推荐： exception-handling - Erlang 错误处理哲学 - case vs throw

文章推荐： facebook-graph-api - 如何获取照片的 "highlighted"状态？

linux - 是否可以在 64 位架构上将 mongodb 数据库文件从 32 位(操作系统)复制/粘贴到 64 位(操作系统)并继续？
如主题所述，是否有可能没有 future 的问题？。基本上我发布此线程以供将来引用，以便人们可以观看该场景。mongodb 被限制为 2Gb 的原因是什么？能否请您指出引用资料，以便像我这样的菜鸟可以
javascript - 我正在使用 Bootstrap 4 轮播。它适用于所有 Windows 和 Android 操作系统，但不适用于 Mac 和 Iphone 操作系统。有什么解决办法吗？
我正在使用 Bootstrap 4 轮播。它适用于所有 Windows 和 Android 操作系统，但不适用于 Mac 和 iPhone 操作系统。有什么解决办法吗？这是我的代码github.com
条件同步-操作系统
Condition Synchinzation--条件同步实现同步有两种方式：competition(compete for a variable that two processes al
[操作系统]计算机资源虚拟化技术
1 定义：计算机资源虚拟化服务器虚拟化主要通过软件技术将物理服务器的硬件资源抽象化，创建多个独立的虚拟服务器环境。虚拟化技术是当今云计算、大数据和AI得以繁荣发展的核心基础技术
【操作系统】内存管理概述
目录内存管理硬件结构早期内存的使用方法分段分页逻辑地址，线性地址（intel架构）虚拟地址物理地址
【操作系统】页表映射
页表的一些术语现在Linux内核中支持四级页表的映射，我们先看下内核中关于页表的一些术语：全局目录项，PGD（Page Global Directory）上级目录项，PUD（
操作系统 --- 文件操作和IO
1. 文件路径绝对路径绝对路径 (absolute path) : 以一个盘符开头的路径,就是绝对路径例如这里的 D:\java\IntelliJ IDEA Community Edition
【操作系统】进程的简单介绍
1. 进程介绍 1.1 进程的概念程序是由指令和数据组成的，但这些指令要运行，数据要读写，就必须将指令加载至 CPU，将数据加载至内存。在指令运行过程中还需要用到磁盘和网络等设备。进程就是用来加载指
操作系统 --- 文件操作和IO
1. 文件路径绝对路径绝对路径 (absolute path) : 以一个盘符开头的路径,就是绝对路径例如这里的 D:\java\IntelliJ IDEA Community Edition
操作系统。授权后用户数据存放在哪里？
我有 REST APIManager 类 - 用于使用服务器 api 的单例。有返回用户Token实体的登录方法；所有其他 API 方法都使用 token 来发出请求。登录后我应该在哪里存储该 to
谁能解释这个输出(操作系统)？
当我在学习操作系统类(class)时，我不明白为什么下面代码的输出是这样的代码: #include #include #include #include int main (int argc
c - 操作系统
我正在尝试在 C++ 中使用 fork() 和 wait() 系统调用。我的代码非常简单。但是我收到以下错误: error C3861: 'fork': identifier not found 我
操作系统。流媒体网络电台
我需要播放不同格式的网络广播。我尝试使用 MPMoviePlayerController 播放广播，但它在 3-4 秒后停止。 var urlAddress = "http://streaming.r
操作系统 ---多线程(进阶)
多线程(进阶) 1. 常见的锁策略 1.1 乐观锁悲观锁乐观锁 : 总是假设最好的情况,每次去拿数据的时候都认为别人不会修改数据,但是在对数据提交更新的时候,再去判断这个数据在这个期间是否有别人对
操作系统内存使用与分段--10
如何让内存用起来? 内存使用：将程序放到内存中，PC指向开始地址那就让首先程序进入内存让程序从磁盘加载到内存中来，首先需要考虑要将程序代码安放在内存的什么位置如果把入口地址直接放在0地址处，然后
170、HBase性能调整：操作系统
操作系统内存 HBase一定需要RAM！ 64位使用64位平台（和64位JVM）。交换注意交换，将swappiness设为0。 CPU 确保已将Hadoop设置为使用本机的硬件
winapi - 如何编写用于组织我的桌面窗口的脚本？ (操作系统)
我想编写一个脚本，将当前打开的 Windows 移动到某个位置。理想情况下，我的程序应该是这样的: var window = FindWindow("Winamp"); window.setPos(
assembly - 内存和汇编语言/操作系统
以下问题是我对操作系统的测试评论，但我不知道如何回答。我会第一次尝试解决他们的问题，但我也不知道如何开始。 Given the following information for an assembl
memory - 操作系统 - 匿名内存
在操作系统方面我见过几次这个词。匿名内存，但我真的不知道，那是什么。如果有人问我一些关于它的事情，我真的无法非常确定地说出那是什么。我也搜索了它的解释，但不幸的是我还没有找到任何令人满意的东西。
linker - 操作系统——静态链接是由链接器还是加载器完成的？
在 Abraham Silberschatz 等人的“操作系统概念”第 9 版中，作者说: "Some operating systems support only static linking, i

首页

博学

6Ren·AI

商城

r - 为什么在unicode字符串上的as.factor()对于每个操作系统都返回不同的结果？