r - R: `split`保留因子的自然顺序-6ren

r - R: `split`保留因子的自然顺序

转载作者：行者123 更新时间：2023-12-03 22:08:21

split将始终按字典顺序对拆分进行排序。在某些情况下，人们宁愿保留自然秩序。总是可以实现手动滚动功能，但是是否有基本的R解决方案可以做到这一点？

可重现的示例:

输入:

  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
1        2013-04-01          INDUSINDBK             SIEMENS  4 2013
2        2013-04-01                NMDC               WIPRO  4 2013
3        2012-09-28               LUPIN                SAIL  9 2012
4        2012-09-28          ULTRACEMCO                STER  9 2012
5        2012-04-27          ASIANPAINT                RCOM  4 2012
6        2012-04-27          BANKBARODA              RPOWER  4 2012

split输出:

R> split(nifty.dat, nifty.dat$yearmon)
$`4 2012`
  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
5        2012-04-27          ASIANPAINT                RCOM  4 2012
6        2012-04-27          BANKBARODA              RPOWER  4 2012

$`4 2013`
  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
1        2013-04-01          INDUSINDBK             SIEMENS  4 2013
2        2013-04-01                NMDC               WIPRO  4 2013

$`9 2012`
  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
3        2012-09-28               LUPIN                SAIL  9 2012
4        2012-09-28          ULTRACEMCO                STER  9 2012

请注意， yearmon已经按照我想要的特定顺序进行了排序。可以认为这是给定的，因为如果这个问题不成立，则问题可能会被错误指定。

所需的输出:

$`4 2013`
  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
1        2013-04-01          INDUSINDBK             SIEMENS  4 2013
2        2013-04-01                NMDC               WIPRO  4 2013

$`9 2012`
  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
3        2012-09-28               LUPIN                SAIL  9 2012
4        2012-09-28          ULTRACEMCO                STER  9 2012

$`4 2012`
  Date.of.Inclusion Securities.Included Securities.Excluded yearmon
5        2012-04-27          ASIANPAINT                RCOM  4 2012
6        2012-04-27          BANKBARODA              RPOWER  4 2012

谢谢。

PS:我知道有更好的方法来创建 yearmon来保留该顺序，但是我正在寻找一种通用的解决方案。

最佳答案

split将f(第二个)参数转换为因子(如果尚不为它)。因此，如果您希望保留顺序，请自行将列与所需水平对应。那是:

df$yearmon <- factor(df$yearmon, levels=unique(df$yearmon))
# now split
split(df, df$yearmon)
# $`4_2013`
#   Date.of.Inclusion Securities.Included Securities.Excluded yearmon
# 1        2013-04-01          INDUSINDBK             SIEMENS  4_2013
# 2        2013-04-01                NMDC               WIPRO  4_2013

# $`9_2012`
#   Date.of.Inclusion Securities.Included Securities.Excluded yearmon
# 3        2012-09-28               LUPIN                SAIL  9_2012
# 4        2012-09-28          ULTRACEMCO                STER  9_2012

# $`4_2012`
#   Date.of.Inclusion Securities.Included Securities.Excluded yearmon
# 5        2012-04-27          ASIANPAINT                RCOM  4_2012
# 6        2012-04-27          BANKBARODA              RPOWER  4_2012

但不要使用 split。使用 data.table代替:

但是，通常，随着级别的增加， split会变得非常缓慢。因此，我建议使用 data.table将其子集到列表中。我想那会快得多!

require(data.table)
dt <- data.table(df)
dt[, grp := .GRP, by = yearmon]
setkey(dt, grp)
o2 <- dt[, list(list(.SD)), by = grp]$V1

对海量数据进行基准测试:

set.seed(45)
dates <- seq(as.Date("1900-01-01"), as.Date("2013-12-31"), by = "days")
ym <- do.call(paste, c(expand.grid(1:500, 1900:2013), sep="_"))

df <- data.frame(x1 = sample(dates, 1e4, TRUE), 
                 x2 = sample(letters, 1e4, TRUE), 
                 x3 = sample(10, 1e4, TRUE), 
                 yearmon = sample(ym, 1e4, TRUE), 
      stringsAsFactors=FALSE)

require(data.table)
dt <- data.table(df)

f1 <- function(dt) {
    dt[, grp := .GRP, by = yearmon]
    setkey(dt, grp)

    o1 <- dt[, list(list(.SD)), by=grp]$V1
}

f2 <- function(df) {
    df$yearmon <- factor(df$yearmon, levels=unique(df$yearmon))
    o2 <- split(df, df$yearmon)
}

require(microbenchmark)
microbenchmark(o1 <- f1(dt), o2 <- f2(df), times = 10)

# Unit: milliseconds
         expr        min         lq     median        uq      max neval
#  o1 <- f1(dt)   43.72995   43.85035   45.20087  715.1292 1071.976    10
#  o2 <- f2(df) 4485.34205 4916.13633 5210.88376 5763.1667 6912.741    10

请注意， o1的解决方案将是一个未命名的列表。但是您可以简单地通过 names(o1) <- unique(dt$yearmon)来设置名称

关于r - R: `split`保留因子的自然顺序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17611734/

文章推荐： .net 4 中的 ASP.NET Web 服务应用程序

文章推荐： couchdb - 什么时候使用 couchDB 比较合适？

.net - 如何确定文档的(自然)语言？
我有一套使用两种语言的文档:英语和德语。关于这些文档没有可用的元信息，程序只能查看其内容。基于此，程序必须决定用哪种语言编写文档。是否有可以在几个小时内实现的针对该问题的“标准”算法？或者，一个免费
c++ - 适合无符号(自然)数的任何值的宽度
背景我有一个日志系统，可以将记录输出到 std::ostream .每条记录都用一个计数器进行注释，该计数器随着每个输出而增加 1，如下所示: ===== Batch # 5 ===== T
java - 从字符串中提取所有(自然)数字的最有效方法
用户可能希望根据需要分隔数字。从字符串中提取所有(自然)数字的最有效(或简单的标准函数)是什么？最佳答案您可以使用正则表达式。我从 Sun's regex matcher tutorial 修改
database - 一个表可以有一个没有(自然)备用键的代理键吗？
我认为如果表有代理键而没有(自然)替代键是没有意义的(请记住，代理键的属性之一是它在数据库之外没有意义环境)。例如假设我有下表: 假设 employee_id 是代理主键，表中没有(自然)备用键。
android - 将屏幕方向锁定为其(自然)默认方向
我想将屏幕方向锁定为其默认方向。我在实现这一点时遇到问题。最初我将屏幕锁定为 list 中的肖像。它适用于纵向默认设备。但是许多平板电脑默认为横向，因此在这些设备中锁定纵向是不合适的，我想检测此默认方
visual-studio-code - vscode中的反向滚动(自然)
我已将笔记本电脑上的触摸板滚动设置为倒置(自然)。它适用于任何地方(pdf、浏览器等)，但在 vscode 中，它坚持正常滚动。通过 vscode 的设置文件没有显示适当的条目。系统:Ubuntu
mongodb - 是提示({$自然: 1}) redundant when using a tailable cursor?
在我发现的许多在上限集合上使用可尾游标的示例中，代码包括: hint( { $natural: 1 } ) (例如 here )，包括官方文档 ( here )，以“确保我们不使用任何索引”，并且结果
flutter - 将 Flutter Row 的子项拉伸(stretch)到最大*自然*高度
@override Widget build(BuildContext context) { return Scaffold( appBar: AppBar( title: T
node.js - 在 Node.js 上训练分类器(自然 - NLP)以查找意外句子
一些上下文:Node.js、Bot、natural module . 我想构建一个机器人，并且我正在使用自然模块来解析用户输入并对其进行总体分类。 var classifier = new natur

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - R: `split`保留因子的自然顺序