gpt4 book ai didi

r - 使用模糊逻辑连接两个数据集

转载 作者:行者123 更新时间:2023-12-04 03:56:30 24 4
gpt4 key购买 nike

我正在尝试在两个数据集之间在 R 中进行模糊逻辑连接:

  • 第一个数据集有一个位置的名称和一个名为 config 的列。
  • 第二个数据集具有位置名称和两个附加属性,在将它们连接到第一个数据集之前需要对其进行汇总。

  • 我想用 name列连接两个数据集。然而 name列可能在任一数据集中有附加字符或前导字符,或者在一个较大的词中包含一个词。例如,如果我们查看这两个数据集,我希望名称 OPAL 加入到 OPALAS,而 SAUSALITO Y 加入到 SAUSALITO。
    Dataset1:    
    Name Config
    ALTO D BB
    CONTRA ST
    EIGHT A DD
    OPALAS BB
    SAUSALITO Y AA
    SOLANO J ST

    Dataset2:
    Name Age Rank
    ALTO D 50 2
    ALTO D 20 6
    CONTRA 10 10
    CONTRA 15 15
    EIGHTH 18 21
    OPAL 19 4
    SAUSALITO 2 12
    SOLANO 34 43

    数据集2汇总代码
    Data2a <- summaryBy(Age ~ Name,FUN=c(mean), data=Data2,na.rm=TRUE)
    Data2b <- summaryBy(Rank ~ Name,FUN=c(sum), data=Data2,na.rm=TRUE)
    Data2 <- data.frame(Data2a$Name, Data2a$Age.mean, Data2b$Rank.sum)

    Desired Outcome:
    Name Config Age Rank
    ALTO D BB 35 8
    CONTRA ST 12.5 25
    EIGHT A DD 18 21
    OPALAS BB 19 4
    SAUSALITO Y AA 12 5
    SOLANO J ST 34 43

    最佳答案

    我能够使用 Fuzzyjoin 包连接两个数据集:

    library(fuzzyjoin)
    stringdist_inner_join(Dataset1, Data2,
    by ="Name", distance_col = NULL)

    关于r - 使用模糊逻辑连接两个数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44359860/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com