数据表中的最大行数-6ren

数据表中的最大行数

转载作者：行者123 更新时间：2023-12-04 07:36:52

25

4

我有一个8,000,000行的数据集，在data.table中有100列，其中每一列都是一个计数。我需要找到每一行的最大计数以及该最大值所在的列。

我可以使用以下方法快速获取每一行的最大值

dt <- dt[, maxCol := which.max(.SD), by=pmxid]

但是尝试使用

dt <- dt[, nmax := max(.SD), by=pmxid]

非常慢我将其运行了将近20分钟，并且仅计算出200,000行的最大值。查找最大列大约需要花费时间。所有8,000,000行的2分钟。

为何找到这么多最大值需要这么长时间？它不应该与 which.max()花费更少的时间吗？

最佳答案

虽然，您正在寻找data.table解决方案，但这是一种base R解决方案，对于您的数据集来说足够快了。

indx <- max.col(df, ties.method='first')
df[cbind(1:nrow(df), indx)]

在稍大的数据集上，显示了 system.time比较

system.time({
 indx <- max.col(df1, ties.method='first')
 res <- df1[cbind(1:nrow(df1), indx)]
})
#   user  system elapsed 
# 2.180   0.163   2.345 



df1$pmxid <- 1:nrow(df1)
dt <- as.data.table(df1)
system.time(dt[, nmax:= max(.SD), by= pmxid])
#      user   system  elapsed 
#1265.792    2.305 1267.836

base R方法要比帖子中的 data.table方法更快。
数据

set.seed(24)
df <- as.data.frame(matrix(sample(c(NA,0:20), 20*10, 
       replace=TRUE), ncol=10))
#if there are NAs, change it to lowest number
df[is.na(df)] <- -999

set.seed(585)
df1 <- as.data.frame(matrix(sample(c(NA,0:20), 100*1e6,
 replace=TRUE), ncol=100))
df1[is.na(df1)] <- -999

关于数据表中的最大行数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28486654/

25

4

0

文章推荐： visual-studio - Visual Studio 中用于 TortoiseSVN 的差异/合并工具

文章推荐： ruby-on-rails - rails : controller helpers

javascript - 在 Angular 数据表 rowCallback 函数上返回 Angular 数据表
我有一个带有嵌套数据的 angular 数据表，我正在尝试在行点击函数上创建另一个数据表。父数据表的 rowCallBack 函数。这是我的外部数据表 html；这是我生成数据表的方
数据表:在过滤器字符串中包含空格
我有一个字母数字列，其中包含诸如“1、2、2”之类的字符串。当我在搜索中输入“1, 2, 2”时，它似乎返回带有“1,”和“2,”的所有单元格。我该怎么做才能使搜索仅返回“1、2、2”？使用数据
数据表:如何使用附加参数重新加载服务器端数据
我有一个获取其数据服务器端的表，使用自定义服务器端初始化参数，这些参数因生成的报告而异。表格生成后，用户可以打开一个弹出窗口，他们可以在其中添加多个附加过滤器以进行搜索。我需要能够使用与原始表相同的初
数据表 + 隐藏所有列按钮
在 datatables我希望能够隐藏所有列，但似乎无法正确使用语法。这来自下面的代码和上面的链接，创建了一个显示所有列的按钮。有没有办法写这个以便我可以隐藏所有列？ {
数据表:根据值更改单元格颜色
我正在使用 DataTable 创建一个交互式表。我有 9 列，其中 5 列是值。我想根据它们的具体情况更改每个单元格的背景颜色。我已经开始尝试首先更改整行颜色，因为这似乎是一项更容易的任务。但是我
数据表 - 水平滚动时列标题不会移动
我有一个简单的例子来说明我的问题。我正在使用数据表 1.9。当数据表位于另一个 html 表内时，水平滚动时列标题不会移动。当它不在 html 表中时它工作正常。我的示例实际上取自他们的水平滚动示例，
数据表 - 使用嵌套独立表向下钻取行
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
数据表 + 如何将服务器端处理代码与文件导出代码结合起来
这是添加按钮以将数据导出到 csv、pdf、excel 的数据表示例...... fiddle here https://datatables.net/extensions/buttons/examp
angularjs - 数据表 - 更改按钮样式
是否有任何方法可以更改 angularjs 数据表中的按钮样式(colvis、copy、print、excel)。 vm.dtOptions = DTOptionsBuilder.newOptions
R 数据表 - 加入但过滤更新
我试图弄清楚如何加入 2 个数据表并更新第一个但应用了过滤器。 DT DT2 b c 1: 1 10 2: 2 10 3: 3 10 4: 4 10 5: 5 10 6: 6 10 7: 7 10
r - 数据表 - 从另一列按名称选择列的值
我有一个数据表，其中包含许多包含值的列。我还有另一列，它定义了我需要选择哪些列的值。我很难找到一种方法来做到这一点。这是一个简单的例子。 > d d value.1 value.2 name
r - 数据表 - 在几列上应用相同的函数来创建新的数据表列
我正在使用 data.table 包。我有一个数据表，表示用户在网站上的操作。假设每个用户都可以访问一个网站，并对其执行多项操作。我的原始数据表是 Action (每一行都是一个 Action )，我
r - 数据表。快速计算每列内更改次数的方法
我想知道每个变量在每个组中变化了多少次，然后将结果添加到所有组中。我是这样找到的: mi[,lapply(.SD, function(x) sum(x != shift(x), na.rm=T)
button - 数据表 - 添加按钮到页眉或页脚
有人可以向我解释一下如何向页眉或页脚添加按钮吗？Datatables 的开发者 Alan 说你必须离开网络服务器才能使用 Table Tools 来使用按钮。但我在独立计算机上离线运行 Datatab
R 数据表 - 使用当前行之前的所有行计算每一行
我希望按 id 和按顺序(时间)计算不同的东西。例如，与: dt = data.table( id=c(1,1,1,2,2,2,3,3,3), hour=c(1,5,5,6,7,8,23,23,23
jquery - 数据表:没有分页按钮
我正在尝试在 JIRA 小工具中使用数据表，但在我的表准备就绪后，没有可用的分页按钮。我有一个表，我正在以最简单的方式使用数据表:$("#mytableid").dataTable(); 浏览页面元素
jquery - 将输入值保存在子行中 - 数据表
我有 responsive 表单中的数据表。数据表生成 child rows在小型设备上。在这一行中，我有一些输入控件。这会导致两个问题。第一个问题:**隐藏子行中的值不会进入表单数据。** 第二
JQuery 数据表 Keydown
我在使用 JQuery DataTable 捕获 keydown 事件时遇到问题。我的目标是允许用户使用箭头键导航表的行。因此，当用户按下箭头键时，我想捕获 keydown 事件并移动表的选定行(这是
jQuery 数据表，以编程方式更改显示的行数
是否有任何方法可以以编程方式更改显示的行数，而无需从下拉列表中手动选择？我已经知道如何更改默认行数。当表首次加载时，我希望它加载所有行，然后“刷新”表以可能仅显示前 10 行。但我想以编程方式刷新表
jquery - 数据表 - 回调后保留选定的页码
我有一个数据表，我应该对其进行更改，例如我想更改内容的状态，但该内容位于表的第三页。当我更改它时，数据表会自行刷新到第一页。我想做的是保留选定的页码并在刷新后回调它。这可能吗？顺便说一句，我正在使用

首页

博学

6Ren·AI

商城

数据表中的最大行数