gpt4 book ai didi

R:内存不足,如何遍历行?

转载 作者:行者123 更新时间:2023-12-01 10:54:22 24 4
gpt4 key购买 nike

我有一个包含 700.000 多行的数据框 (myDF),每行有两列,id 和 text。该文本有 140 个字符的文本(推文),我想对我从网上获得的情感分析进行分析。但是,无论我尝试什么,我在带有 4gb ram 的 macbook 上都有内存问题。

我在想也许我可以遍历行,例如做前 10 个,然后做第二个 10...等等。 (即使批量为 100,我也会遇到问题)这会解决问题吗?以这种方式循环的最佳方式是什么?

我在这里发布我的代码:

library(plyr)
library(stringr)

# function score.sentiment
score.sentiment = function(sentences, pos.words, neg.words, .progress='none')
{
   # Parameters
   # sentences: vector of text to score
   # pos.words: vector of words of postive sentiment
   # neg.words: vector of words of negative sentiment
   # .progress: passed to laply() to control of progress bar

   # create simple array of scores with laply
   scores = laply(sentences,
   function(sentence, pos.words, neg.words)
   {

      # split sentence into words with str_split (stringr package)
      word.list = str_split(sentence, "\\s+")
      words = unlist(word.list)

      # compare words to the dictionaries of positive & negative terms
      pos.matches = match(words, pos.words)
      neg.matches = match(words, neg.words)

      # get the position of the matched term or NA
      # we just want a TRUE/FALSE
      pos.matches = !is.na(pos.matches)
      neg.matches = !is.na(neg.matches)

      # final score
score = sum(pos.matches)- sum(neg.matches)
      return(score)
      }, pos.words, neg.words, .progress=.progress )

   # data frame with scores for each sentence
   scores.df = data.frame(text=sentences, score=scores)
   return(scores.df)
}

# import positive and negative words
pos = readLines("positive_words.txt")
neg = readLines("negative_words.txt")

# apply function score.sentiment


myDF$scores = score.sentiment(myDF$text, pos, neg, .progress='text')

最佳答案

4 GB 听起来足以存储 700,000 个 140 个字符的句子。另一种计算情绪分数的方法可能更节省内存和时间,并且/或更容易分成 block 。不是处理每个句子,而是将整组句子分解成单词

words <- str_split(sentences, "\\s+")

然后确定每个句子中有多少个单词,并创建一个单词向量

len <- sapply(words, length)
words <- unlist(words, use.names=FALSE)

通过重新使用 words变量我释放了以前使用的内存用于重新循环(不需要显式调用垃圾收集器,这与 @cryo111 中的建议相反!)。你可以找到一个词是否在pos.words中与否,不用担心 NA,使用 words %in% pos.words .但是我们可以聪明一点,计算这个逻辑向量的累积和,然后在每个句子的最后一个单词处对累积和进行子集

cumsum(words %in% pos.words)[len]

并计算单词数作为这个的导数

pos.match <- diff(c(0, cumsum(words %in% pos.words)[len]))

这是 pos.match你分数的一部分。所以

scores <- diff(c(0, cumsum(words %in% pos.words)[len])) - 
diff(c(0, cumsum(words %in% neg.words)[len]))

就是这样。

score_sentiment <-
function(sentences, pos.words, neg.words)
{
words <- str_split(sentences, "\\s+")
len <- sapply(words, length)
words <- unlist(words, use.names=FALSE)
diff(c(0, cumsum(words %in% pos.words)[len])) -
diff(c(0, cumsum(words %in% neg.words)[len]))
}

这里的目的是一次性处理所有句子

myDF$scores <- score_sentiment(myDF$text, pos, neg)

这避免了 for 循环,虽然与 lapply 相比本质上并不低效和 friend 如果正确实现如@joran 所示,与矢量化解决方案相比效率非常低。大概 sentences不会在这里被复制,返回(只是)分数不会浪费内存返回我们已经知道的信息(句子)。最大的内存将是 sentenceswords .

如果内存仍然是个问题,那么我会创建一个索引,可以用来将文本分成更小的组,并计算每个组的分数

nGroups <- 10 ## i.e., about 70k sentences / group
idx <- seq_along(myDF$text)
grp <- split(idx, cut(idx, nGroups, labels=FALSE))
scorel <- lapply(grp, function(i) score_sentiment(myDF$text[i], pos, neg))
myDF$scores <- unlist(scorel, use.names=FALSE)

首先确保myDF$text实际上是一个字符,例如 myDF$test <- as.character(myDF$test)

关于R:内存不足,如何遍历行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16267477/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com