gpt4 book ai didi

从数据集中删除提及次数太少的项目

转载 作者:行者123 更新时间:2023-12-04 11:12:01 25 4
gpt4 key购买 nike

我是新手 R 用户,我对遇到的问题有疑问:

  • 非常大的数据集(将近 80 万行)
  • 此数据集列出了 90 年代美国政客的所有贡献

经过一些数据清理后,我需要将列表缩小到更易于管理的大小。由于我对不止一次捐赠的贡献者感兴趣,因此我决定尝试像这样限制数据集的大小。

数据集加载为“cont”

我的意图:

  1. 映射提及频率:

    > table(cont$contributor_name) -> FreqCon
    > subset(FreqCon,Freq>4) -> FMI
  2. 插入一个名为“include”的额外列作为 cont[,43],用于判断我是否应该将其子集化为 TRUE 或 FALSE

    for(i in 1:dim(FMI)[1]){
    + ifelse(cont[i,11] %in% FMI[,1],cont[i,43] <- TRUE, cont[i,43] <- FALSE) }
  3. 根据cont$include

    对数据集进行子集化

我希望这是所有相关信息。如果需要,我很乐意提供更多信息!另外:cont[,11] = cont$contributor_name

问题:目前,R 正在非常努力地工作,但似乎并没有改变列中的任何内容。我对自己做错了什么感到困惑,因为我没有收到任何 warnings() 或错误。

也许我正在尝试重新发明轮子,所以如果能以任何方式完成我打算做的事情,我们将不胜感激!

最佳答案

你不需要循环。这就是矢量化旨在解决的问题。

FreqCon <- table(cont$contributor_name)
FMI <- names(FreqCon)[FreqCon > 4]
small_cont <- subset(cont, contributor_name %in% FMI)

关于从数据集中删除提及次数太少的项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16035475/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com