- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这继续自 this question我前几天问过的(我现在想我应该同时问这个)。
token.dt
是由数据表组成的列表,每个数据表对应n-grams中的n,包括n-grams(即,n 个单词序列)及其分数。
> head(token.dt[[2]])
V1 V2 mi2
1: 0 0 6.494179
2: 0 001 13.249067
3: 0 002 13.249067
4: 0 005 13.249067
5: 0 025 13.249067
6: 0 039 13.249067
> head(token.dt[[5]])
V1 V2 V3 V4 V5 mi5
1: 0 0 1 0 1 10.353265
2: 0 001 in apart for 6.807743
3: 0 001 in thick and 5.190449
4: 0 002 on each side 11.688710
5: 0 005 m in f 9.940322
6: 0 025 in aluminum which 8.249075
任务是选择满足以下条件的 n-gram(即 token.dt
中表的行)。仅当 n-gram 的分数高于 n-1 grams 和识别出的 n+1 grams 的分数时,算法才保留该 n-gram通过以下方式:
例如,请考虑以下内容。
> for (i in 2:n) setkeyv(token.dt[[i]], paste0("V", 1:i))
> token.dt[[2]][J("0", "1")]
V1 V2 mi2
1: 0 1 7.135725
> token.dt[[3]][J("0", "1")]
V1 V2 V3 mi3
1: 0 1 0 9.803035
2: 0 1 2 6.809646
3: 0 1 f 6.142258
4: 0 1 m 7.315181
5: 0 1 milligram 13.517241
6: 0 1 mv 13.517241
7: 0 1 of 1.151899
8: 0 1 the 0.214648
9: 0 1 to 3.633922
> token.dt[[4]][J("0", "1")]
V1 V2 V3 V4 mi4
1: 0 1 0 1 10.507784
2: 0 1 2 3 11.541023
3: 0 1 f the 3.927859
4: 0 1 m neutral 13.621798
5: 0 1 milligram of 3.852570
6: 0 1 milligram per 10.638304
7: 0 1 mv m 11.260860
8: 0 1 of making 12.235372
9: 0 1 the number 9.707556
10: 0 1 to 0 12.669723
11: 0 1 to 5 11.158356
这里,三元组(三个词的序列)0 1 0 没有被保留,因为尽管共享前两个词的二元组 (0 1) 具有较低的score (9.803035 > 7.135725),前三个单词与三元组 (0 1 0 1) 匹配的 4-gram 的得分高于所关注的三元组 (10.507784 > 9.803035)。
trigram 0 1 milligram 被保留,因为它的分数高于共享前两个单词的 bigram (13.517241 > 7.135725) 和前三个单词与 trigram ( 13.517241 > 3.852570、13.517241 > 10.638304)。
上述任务是通过以下方式以非编程方式实现的。
> z <- token.dt[[4]][token.dt[[3]][token.dt[[2]], allow.cartesian = TRUE], list(k = all(mi3 > max(mi2, mi4)), mi3), allow.cartesian = TRUE][(k)]
> head(z)
V1 V2 V3 k mi3
1: 0 1 milligram TRUE 13.51724
2: 0 1 mv TRUE 13.51724
3: 0 15 g TRUE 12.24260
4: 0 2 gram TRUE 13.52079
5: 0 2 mrads TRUE 13.34449
6: 0 3 wt TRUE 13.28771
我想知道的是如何以编程方式执行上述操作,即不对列名称进行硬编码(例如 mi3、mi4 等)。
简单地使用paste0
函数创建字符串并添加with = FALSE
的参数似乎不起作用。
> i <- 3
> z <- token.dt[[i + 1]][token.dt[[i]][token.dt[[i - 1]], allow.cartesian = TRUE], list(k = all(paste0("mi", i) > max(paste0("mi", i - 1), paste0("mi", i + 1))), paste0("mi", i)), with = FALSE, allow.cartesian = TRUE][(k)]
Error in abs(j) : non-numeric argument to mathematical function
当场尝试对上面的字符串求值,导致找不到列。将 envir = .SD
添加到下面的 eval
会导致与下面相同的错误。
> z <- token.dt[[i + 1]][token.dt[[i]][token.dt[[i - 1]], allow.cartesian = TRUE], list(k = all(eval(parse(text = paste0("mi", i))) > max(eval(parse(text = paste0("mi", i - 1))), eval(parse(text = paste0("mi", i + 1))))), eval(parse(text = paste0("mi", i)))), allow.cartesian = TRUE][(k)]
Error in eval(expr, envir, enclos) : object 'mi3' not found
目前唯一可行的方法是首先连接必要的数据表,然后按照上述相同的方法进行操作。
> for (j in 2:4) {
+ if (j == 2) {
+ all <- copy(token.dt[[j]])
+ } else {
+ all <- token.dt[[j]][all, allow.cartesian = TRUE]
+ }
+ }
> head(all)
V1 V2 V3 V4 mi4 mi3 mi2
1: 0 0 1 0 13.292479 9.766820 6.494179
2: 0 001 in apart 13.233742 5.624795 13.249067
3: 0 001 in thick 13.005608 5.624795 13.249067
4: 0 002 on each 10.416711 7.301489 13.249067
5: 0 005 m in 5.625874 11.205271 13.249067
6: 0 025 in aluminum 13.443647 5.624795 13.249067
> z <- all[1:1000 , list(k = all(eval(parse(text = paste0("mi", i)), envir = .SD) > max(eval(parse(text = paste0("mi", i - 1)), envir = .SD), eval(parse(text = paste0("mi", i + 1)), envir = .SD))), mi = eval(parse(text = paste0("mi", i)), envir = .SD)), by = c(paste0("V", 1:i))][(k)]
> z <- unique(z)
> head(z)
V1 V2 V3 k mi
1: 0 1 milligram TRUE 13.51724
2: 0 1 mv TRUE 13.51724
3: 0 15 g TRUE 12.24260
4: 0 2 gram TRUE 13.52079
5: 0 2 mrads TRUE 13.34449
6: 0 3 wt TRUE 13.28771
但是,这慢得令人无法接受。处理 970,696 行中的 1,000 行(以上)需要五秒多的时间。鉴于我在这里使用的语料库比我想要应用该算法的语料库小得多,我正在寻找加速该过程的方法。
下面的模拟数据集应该可以说明这一点。
token.dt <- list()
types <- combn(LETTERS, 3, paste, collapse = "")
set.seed(1)
data <- data.table(matrix(sample(types, 4 * 1E6, replace = TRUE), ncol = 4))
setkey(data, V1, V2, V3, V4)
set.seed(1)
for (n in 2:4) {
token.dt[[n]] <- unique(cbind(data[ , 1:n, with = FALSE]))
token.dt[[n]][ , paste0("mi", n) := runif(nrow(token.dt[[n]])) * 10]
}
如有任何建议,我们将不胜感激。
最佳答案
为了使eval
方法起作用,您必须首先构建整个表达式,然后是eval
。我在你的样本的简化版本上运行了这个(40 个值而不是 4e6):
i <- 3
x <- parse(
text=paste0(
"list(k = all(mi", i, " > max(mi", i - 1,
", mi", i + 1, ")), mi", i, ")"
) )
token.dt[[i + 1]][
token.dt[[i]][token.dt[[i - 1]], allow.cartesian = TRUE],
eval(x),
allow.cartesian = TRUE
][(k)]
# V1 V2 V3 k mi3
# 1: CIX BQV OWY TRUE 6.870228
# 2: GIU IJM HMO TRUE 7.698414
# 3: NQR FHN DOY TRUE 9.919061
# 4: PSX IPQ ACN TRUE 7.774452
如您所见,以编程方式引用列是有效的。使用您的完整数据集(4MM 值),这在我的系统上运行了大约 3 秒。
关于r - 以编程方式指定数据表中函数内的列名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21706355/
我有一个带有嵌套数据的 angular 数据表,我正在尝试在行点击函数上创建另一个数据表。父数据表的 rowCallBack 函数。 这是我的外部数据表 html; 这是我生成数据表的方
我有一个字母数字列,其中包含诸如“1、2、2”之类的字符串。 当我在搜索中输入“1, 2, 2”时,它似乎返回带有“1,”和“2,”的所有单元格。 我该怎么做才能使搜索仅返回“1、2、2”? 使用数据
我有一个获取其数据服务器端的表,使用自定义服务器端初始化参数,这些参数因生成的报告而异。表格生成后,用户可以打开一个弹出窗口,他们可以在其中添加多个附加过滤器以进行搜索。我需要能够使用与原始表相同的初
在 datatables我希望能够隐藏所有列,但似乎无法正确使用语法。 这来自下面的代码和上面的链接,创建了一个显示所有列的按钮。有没有办法写这个以便我可以隐藏所有列? {
我正在使用 DataTable 创建一个交互式表。我有 9 列,其中 5 列是值。我想根据它们的具体情况更改每个单元格的背景颜色。 我已经开始尝试首先更改整行颜色,因为这似乎是一项更容易的任务。但是我
我有一个简单的例子来说明我的问题。我正在使用数据表 1.9。当数据表位于另一个 html 表内时,水平滚动时列标题不会移动。当它不在 html 表中时它工作正常。我的示例实际上取自他们的水平滚动示例,
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。 我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题,以便
这是添加按钮以将数据导出到 csv、pdf、excel 的数据表示例...... fiddle here https://datatables.net/extensions/buttons/examp
是否有任何方法可以更改 angularjs 数据表中的按钮样式(colvis、copy、print、excel)。 vm.dtOptions = DTOptionsBuilder.newOptions
我试图弄清楚如何加入 2 个数据表并更新第一个但应用了过滤器。 DT DT2 b c 1: 1 10 2: 2 10 3: 3 10 4: 4 10 5: 5 10 6: 6 10 7: 7 10
我有一个数据表,其中包含许多包含值的列。我还有另一列,它定义了我需要选择哪些列的值。我很难找到一种方法来做到这一点。 这是一个简单的例子。 > d d value.1 value.2 name
我正在使用 data.table 包。我有一个数据表,表示用户在网站上的操作。假设每个用户都可以访问一个网站,并对其执行多项操作。我的原始数据表是 Action (每一行都是一个 Action ),我
我想知道每个变量在每个组中变化了多少次,然后将结果添加到所有组中。 我是这样找到的: mi[,lapply(.SD, function(x) sum(x != shift(x), na.rm=T)
有人可以向我解释一下如何向页眉或页脚添加按钮吗?Datatables 的开发者 Alan 说你必须离开网络服务器才能使用 Table Tools 来使用按钮。但我在独立计算机上离线运行 Datatab
我希望按 id 和按顺序(时间)计算不同的东西。 例如,与: dt = data.table( id=c(1,1,1,2,2,2,3,3,3), hour=c(1,5,5,6,7,8,23,23,23
我正在尝试在 JIRA 小工具中使用数据表,但在我的表准备就绪后,没有可用的分页按钮。我有一个表,我正在以最简单的方式使用数据表:$("#mytableid").dataTable(); 浏览页面元素
我有 responsive 表单中的数据表。 数据表生成 child rows在小型设备上。在这一行中,我有一些输入控件。这会导致两个问题。 第一个问题:**隐藏子行中的值不会进入表单数据。** 第二
我在使用 JQuery DataTable 捕获 keydown 事件时遇到问题。我的目标是允许用户使用箭头键导航表的行。因此,当用户按下箭头键时,我想捕获 keydown 事件并移动表的选定行(这是
是否有任何方法可以以编程方式更改显示的行数,而无需从下拉列表中手动选择? 我已经知道如何更改默认行数。当表首次加载时,我希望它加载所有行,然后“刷新”表以可能仅显示前 10 行。但我想以编程方式刷新表
我有一个数据表,我应该对其进行更改,例如我想更改内容的状态,但该内容位于表的第三页。当我更改它时,数据表会自行刷新到第一页。我想做的是保留选定的页码并在刷新后回调它。这可能吗? 顺便说一句,我正在使用
我是一名优秀的程序员,十分优秀!