r - 将标记列表转换为 n-gram-6ren

r - 将标记列表转换为 n-gram

转载作者：行者123 更新时间：2023-12-04 04:58:12

37

4

我有一个已经被标记化的文档列表:

dat <- list(c("texaco", "canada", "lowered", "contract", "price", "pay", 
"crude", "oil", "canadian", "cts", "barrel", "effective", "decrease", 
"brings", "companys", "posted", "price", "benchmark", "grade", 
"edmonton", "swann", "hills", "light", "sweet", "canadian", "dlrs", 
"bbl", "texaco", "canada", "changed", "crude", "oil", "postings", 
"feb", "reuter"), c("argentine", "crude", "oil", "production", 
"pct", "january", "mln", "barrels", "mln", "barrels", "january", 
"yacimientos", "petroliferos", "fiscales", "january", "natural", 
"gas", "output", "totalled", "billion", "cubic", "metrers", "pct", 
"billion", "cubic", "metres", "produced", "january", "yacimientos", 
"petroliferos", "fiscales", "added", "reuter"))

我正在尝试有效地将此标记列表转换为 n-gram 列表。这是我到目前为止编写的函数:

find_ngrams <- function(x, n){

  if (n==1){ return(x)}

  out <- as.list(rep(NA, length(x)))

  for (i in 1:length(x)){
    words <- x[[i]]
    out[[i]] <- words

    for (j in 2:n){

      phrases <- sapply(1:j, function(k){
        words[k:(length(words)-n+k)]
      })

      phrases <- apply(phrases, 1, paste, collapse=" ")

      out[[i]]  <- c(out[[i]], phrases)

    }
  }
  return(out)
}

这对于查找 n-gram 很有效，但似乎效率低下。用 *apply 替换 for 循环函数仍然会给我留下嵌套 3 层深的循环:

result <- find_ngrams(dat, 2)
> result[[2]]
 [1] "argentine"                "crude"                    "oil"                     
 [4] "production"               "pct"                      "january"                 
 [7] "mln"                      "barrels"                  "mln"                     
[10] "barrels"                  "january"                  "yacimientos"             
[13] "petroliferos"             "fiscales"                 "january"                 
[16] "natural"                  "gas"                      "output"                  
[19] "totalled"                 "billion"                  "cubic"                   
[22] "metrers"                  "pct"                      "billion"                 
[25] "cubic"                    "metres"                   "produced"                
[28] "january"                  "yacimientos"              "petroliferos"            
[31] "fiscales"                 "added"                    "reuter"                  
[34] "argentine crude"          "crude oil"                "oil production"          
[37] "production pct"           "pct january"              "january mln"             
[40] "mln barrels"              "barrels mln"              "mln barrels"             
[43] "barrels january"          "january yacimientos"      "yacimientos petroliferos"
[46] "petroliferos fiscales"    "fiscales january"         "january natural"         
[49] "natural gas"              "gas output"               "output totalled"         
[52] "totalled billion"         "billion cubic"            "cubic metrers"           
[55] "metrers pct"              "pct billion"              "billion cubic"           
[58] "cubic metres"             "metres produced"          "produced january"        
[61] "january yacimientos"      "yacimientos petroliferos" "petroliferos fiscales"   
[64] "fiscales added"           "added reuter"

这段代码中是否有任何重要部分可以矢量化？

/edit:这里是 Matthew Plourde 函数的更新版本，它执行“高达 n-gram”并适用于整个列表:

find_ngrams_base <- function(x, n) {
  if (n == 1) return(x)
  out <- lapply(1:n, function(n_i) embed(x, n_i))
  out <- sapply(out, function(y) apply(y, 1, function(row) paste(rev(row), collapse=' ')))
  unlist(out)
}

find_ngrams_plourde <- function(x, ...){
  lapply(x, find_ngrams_base, ...)
}

我们可以对我写的函数进行基准测试，发现它有点慢:

library(rbenchmark)
benchmark(
  replications=100,
  a <- find_ngrams(dat, 2),
  b <- find_ngrams(dat, 3),
  c <- find_ngrams(dat, 4),
  d <- find_ngrams(dat, 10),
  w <- find_ngrams_plourde(dat, 2),
  x <- find_ngrams_plourde(dat, 3),
  y <- find_ngrams_plourde(dat, 4),
  z <- find_ngrams_plourde(dat, 10),
  columns=c('test', 'elapsed', 'relative'),
  order='relative'
)
                               test elapsed relative
1          a <- find_ngrams(dat, 2)   0.040    1.000
2          b <- find_ngrams(dat, 3)   0.081    2.025
3          c <- find_ngrams(dat, 4)   0.117    2.925
5  w <- find_ngrams_plourde(dat, 2)   0.144    3.600
6  x <- find_ngrams_plourde(dat, 3)   0.212    5.300
7  y <- find_ngrams_plourde(dat, 4)   0.277    6.925
4         d <- find_ngrams(dat, 10)   0.361    9.025
8 z <- find_ngrams_plourde(dat, 10)   0.669   16.725

但是，它也发现我的函数遗漏了很多 ngram(哎呀):

for (i in 1:length(dat)){
  print(setdiff(w[[i]], a[[i]]))
  print(setdiff(x[[i]], b[[i]]))
  print(setdiff(y[[i]], c[[i]]))
  print(setdiff(z[[i]], d[[i]]))
}

我觉得这两个函数都可以改进，但我想不出任何方法来避免三重循环(循环向量，循环所需的 ngrams 数量，1-n，循环单词以构建 ngrams)

/编辑2:
这是一个修改后的函数，基于马特的回答:

find_ngrams_2 <- function(x, n){
  if (n == 1) return(x)
  lapply(x, function(y) c(y, unlist(lapply(2:n, function(n_i) do.call(paste, unname(rev(data.frame(embed(y, n_i), stringsAsFactors=FALSE))))))))
}

它似乎返回了正确的 ngram 列表，并且比我的原始函数更快(在大多数情况下):

library(rbenchmark)
benchmark(
  replications=100,
  a <- find_ngrams(dat, 2),
  b <- find_ngrams(dat, 3),
  c <- find_ngrams(dat, 4),
  d <- find_ngrams(dat, 10),
  w <- find_ngrams_2(dat, 2),
  x <- find_ngrams_2(dat, 3),
  y <- find_ngrams_2(dat, 4),
  z <- find_ngrams_2(dat, 10),
  columns=c('test', 'elapsed', 'relative'),
  order='relative'
)

                         test elapsed relative
5  w <- find_ngrams_2(dat, 2)   0.039    1.000
1    a <- find_ngrams(dat, 2)   0.041    1.051
6  x <- find_ngrams_2(dat, 3)   0.078    2.000
2    b <- find_ngrams(dat, 3)   0.081    2.077
7  y <- find_ngrams_2(dat, 4)   0.119    3.051
3    c <- find_ngrams(dat, 4)   0.123    3.154
4   d <- find_ngrams(dat, 10)   0.399   10.231
8 z <- find_ngrams_2(dat, 10)   0.436   11.179

最佳答案

这是 embed 的一种方式.

find_ngrams <- function(x, n) {
    if (n == 1) return(x)
    c(x, apply(embed(x, n), 1, function(row) paste(rev(row), collapse=' ')))
}

您的函数中似乎存在错误。如果你解决了这个问题，我们可以做一个基准测试。

关于r - 将标记列表转换为 n-gram，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16489748/

37

4

0

文章推荐： jsf - p :poll not starting immediately

文章推荐： php - 如何使用 fpdf 像示例一样创建 pdf

javascript - anchor 标记(标记)onclick 事件处理程序不工作
虽然我在 reactjs 组件(组件名称为 renderLocationLink)的渲染方法返回的 html 中包含了 a 标签的 onclick 处理程序，但渲染正确地发生了 onclick 处理程
ms-word - docx - 标记/标记 - docx 转换
我必须以 docx 格式存储一些文档，但无法忍受使用 msword:我想编辑某种纯文本标记，除了基于 XML 的东西(我也不喜欢那样)和从/到那个到/从 docx 转换。有什么选择吗？编辑:由于人
javascript - 一旦设置了 anchor 标记，在延迟后如何单击 anchor 标记？
有一个页面，其 anchor 标记在延迟后变得可点击。我想使用用户脚本在可点击后点击它。页面加载时，HTML 源代码为: Download 延迟一段时间后，#button 变
python - 解析 XML，搜索目标起始标记，并忽略其上方的所有标记
我正在将 XML 文件解析为 pandas 数据帧。使用下面的代码我可以成功获取所有内容，但是这使用了完整 XML 的编辑版本。完整的 XML 在主数据表之上有一堆摘要数据，请参阅完整的 XML he
python - 如何在提供给 python 中的 xml.sax 解析器之前从 xml 文件中删除特殊字符和 & 标记(无效的 xml 标记)
目前我正在研究 xml.sax 解析器来解析 xml 文件假设我有以下代码 filepath = 'users/file.xml' try: parser = xml.sax.make_pa
ANTLR - 树中的隐式 AND 标记
我正在尝试构建一种语法来解释用户输入的文本，搜索引擎风格。它将支持 AND、OR、NOT 和 ANDNOT bool 运算符。我几乎所有东西都在工作，但我想添加一个规则，将引用字符串之外的两个相邻关键
Terraform EKS 标记
我遇到了 Terraform EKS 标记的问题，并且似乎没有找到可行的解决方案来在创建新集群时标记所有 VPC 子网。提供一些上下文:我们有一个 AWS VPC，我们在其中将多个 EKS 集群部署
xpath - XPath返回XHTML文件中的第一个标记
我是xpath的新手，对此了解不多。我知道有一种方法可以使用xpath在xml / xhtml文件中查找特定标签。就我而言，我试图找到第一个（a）链接元素。不幸的是，我的xpath字符串[// a [
javascript - 单击内部按钮时防止单击父 A 标记
我在索引页上的产品卡上遇到问题。在产品卡内部，我有 Vue 组件来渲染表单(数量和添加到购物车按钮)。当我单击“添加到购物车”按钮时，我得到了预期的结果。响应被发送到根 vue 组件，然后我看到产品已
css - 背景颜色不适用于标记
html setMouse(true)} onMouseEnter={() => setMouse(false)} className='resume-container'> CSS .resum
delphi - 标记/取消标记一组枚举中的另一个选项
我在组件中有一组枚举，如下所示: type TOption = (clVisible, clVisibleAlways, clRenderable, clEditable); TOptions
用于性能考虑的 Javadoc 标记
是否有出于性能考虑的javadoc标签？人们可以想象: /** * ...other javadoc tags... * @perform Expected to run in O(n) tim
css - 背景颜色不适用于标记
html setMouse(true)} onMouseEnter={() => setMouse(false)} className='resume-container'> CSS .resum
Neo4j:更快的子图着色/标记
我有一个包含多个小子图的图。目标是当且仅当子图中的所有节点都是蓝色时，才将子图中的所有蓝色节点标记为红色。如果子图中的一个节点具有不同的颜色，绿色，那么我们将不会更改该子图中节点的颜色。这是我正在使
多个事件的 Gmail 标记
我正在使用 json-ld 开发事件标记以包含在确认电子邮件中。我的一些事件会定期重复发生。但是，最新的 Schema.org 规范不支持重复发生的事件，因此我遵循了此处提供的建议:http://l
java - 标记 -> 转到行号
我创建了一个插件，可以添加带有相应行号的标记。现在，这很棒，因为它现在显示在“标记” View 中。有没有办法当我双击标记上的一行时，它会转到标记指示的行？谢谢。最佳答案双击“标记” View
jquery - Facebook 标记
是否有一个插件具有与 Facebook 标记类似的行为？它的特别之处在于它具有: 在键入的单词之间自动完成特殊输出的 html(与另一个输入字段同步) 最佳答案您可以使用jquery提及输入pl
java - 分割字符串/标记
有没有更好的方法来读取java文件中的 token ？我目前正在使用 StringTokenizer 来分割 token 。但在大多数情况下，它的效率可能非常低，因为您必须逐个 token 地读取 t
Java:标记/标记文件
我想知道是否有某种方法可以标记文件来识别该文件是否包含x。考虑以下示例: 在批量转换过程中，我正在创建一个日志文件，其中列出了各个转换的成功/失败。所以流程如下: 开始转换过程创建名为batch
jquery模拟点击html anchor 标记
我一直在尝试模拟点击标签，但这并没有像我需要的那样工作。我的 anchor 标记看起来像这样 Download this pic 正常的 $("a").click() 或 trigger('cli

首页

博学

6Ren·AI

商城

r - 将标记列表转换为 n-gram