r - 为什么合并会产生比原始数据更多的行？-6ren

r - 为什么合并会产生比原始数据更多的行？

转载作者：行者123 更新时间：2023-12-02 01:29:42

25

4

当我合并两个数据框时，结果的行数比原始数据多。

在本例中，all 数据框有 104956 行，koppen 有 3968 行 和 alltest 数据框有 130335 行。通常，alltest 的行数应等于或小于 all。

为什么会发生这种通货膨胀？我不确定提供可重现的示例是否会有帮助，因为它在我之前使用过的实例中确实有效。

alltest <- merge(all, koppen, by = "fips", sort = F)

最佳答案

首先，来自 ?merge:

The rows in the two data frames that match on the specified columns are extracted, and joined together. If there is more than one match, all possible matches contribute one row each.

使用评论中的链接:

url    <- "http://koeppen-geiger.vu-wien.ac.at/data/KoeppenGeiger.UScounty.txt"
koppen <- read.table(url, header=T, sep="\t")
nrow(koppen)
# [1] 3594
length(unique(koppen$FIPS))
# [1] 2789

很明显koppen有重复的FIPS代码。检查数据集和网站，许多县似乎处于不止一种气候类别，例如，阿拉斯加的安科雷奇县有三种气候类别:

koppen[koppen$FIPS==2020,]
#     STATE    COUNTY FIPS CLS  PROP
# 73 Alaska Anchorage 2020 Dsc 0.010
# 74 Alaska Anchorage 2020 Dfc 0.961
# 75 Alaska Anchorage 2020  ET 0.029

解决方案取决于您想要实现的目标。如果您想提取 all 中的所有行以及 koppen 中出现的任何 FIPS，则以下任一方法都可以:

merge(all,unique(koppen$FIPS))

all[all$FIPS %in% unique(koppen$FIPS),]

如果您需要将县和州名称附加到all，请使用以下内容:

merge(all,unique(koppen[c("STATE","COUNTY","FIPS")]),by="FIPS")

编辑基于下面评论中的交流。

因此，由于 koppen 中有时存在多个具有相同 FIPS 但不同 CLS 的行，我们需要一种方法来决定哪一行要选择的行数(例如，哪个 CLS)。有两种方法:

# this extracts the row with the largest value of PROP, for that FIPS
url        <- "http://koeppen-geiger.vu-wien.ac.at/data/KoeppenGeiger.UScounty.txt"
koppen     <- read.csv(url, header=T, sep="\t")
koppen     <- with(koppen,koppen[order(FIPS,-PROP),])
sub.koppen <- aggregate(koppen,by=list(koppen$FIPS),head,n=1)
result     <- merge(all, sub.koppen, by="FIPS")

# this extracts a row at random
sub.koppen <- aggregate(koppen,by=list(koppen$FIPS), 
                        function(x)x[sample(1:length(x),1)])
result     <- merge(all, sub.koppen, by="FIPS")

关于r - 为什么合并会产生比原始数据更多的行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24150765/

25

4

0

文章推荐： r - 向大型数据框添加索引(数字 ID)列

文章推荐： java - Google 语音 API 凭据

文章推荐： apache - nginx : Its Multithreaded but uses multiple processes?

QTCreator 的集成表单编辑器不会加载自定义小部件插件(Designer 会)
尝试使用集成到 QTCreator 的表单编辑器，但即使我将插件放入 QtCreator.app/Contents/MacOS/designer 也不会显示。不过，相同的 dylib 文件确实适用于独
java - 会 this.method2();跳过返回值？
在此代码示例中。 “this.method2();”之后会读到什么？在返回returnedValue之前会跳转到method2()吗？ public int method1(int returnedV
java - Gradle 不会解析依赖关系(Maven 会)
我的项目有通过gradle配置的依赖项。我想添加以下依赖项: compile group: 'org.restlet.jse', name: 'org.restlet.ext.apispark', v
polymer - polymer 会 build 更多现成可用的组件吗？
我将把我们基于 Windows 的客户管理软件移植到基于 Web 的软件。我发现 polymer 可能是一种选择。但是，对于我们的使用，我们找不到 polymer 组件具有表格 View 、下拉菜单
java - 从项目文件夹中读取文件，eclipse 会，但终端不会
我的项目文件夹 Project 中有一个文件夹，比如 ED 文件夹，当我在 Eclipse 中指定在哪里查找我写入的文件时 File file = new File("ED/text.txt"); e
javascript - jQuery 动画背景位置不会改变但 css 会
这是奇怪的事情，这个有效: $('#box').css({"backgroundPosition": "0px 250px"}); 但这不起作用，它只是不改变位置: $('#box').animate
javascript - 为什么按位运算符 OR 会 chop 此示例中的值？
这个问题在这里已经有了答案: Why does OR 0 round numbers in Javascript? (3 个答案) 关闭 5 年前。 Mozilla JavaScript Guide
c - strcmpi 代码不会编译但 strcmp 会？
这个问题在这里已经有了答案: Is the function strcmpi in the C standard libary of ISO? (3 个答案) 关闭 8 年前。我有一个问题，为什么
mysql - MySQL 会/是否支持 DATETIMEOFFSET？
我目前使用的是共享主机方案，我不确定它使用的是哪个版本的 MySQL，但它似乎不支持 DATETIMEOFFSET 类型。是否存在支持 DATETIMEOFFSET 的 MySQL 版本？或者有计划
java - CDI 会(或应该)提供包限定符吗？
研究 Seam 3，我发现 Seam Solder 允许将 @Named 注释应用于包 - 在这种情况下，该包中的所有 bean 都将自动命名，就好像它们符合条件一样@Named 他们自己。我没有看到
arrays - `removeLast` 会 swift 减少数组的容量吗？
我知道 .append 偶尔会增加数组的容量并形成数组的新副本，但 .removeLast 会逆转这种情况并减少容量通过复制到一个新的更小的数组来改变数组？最佳答案否(或者至少如果是，则它是一个错
ruby - Ruby 会*快*吗？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - noexcept 会 boost 性能吗？
noexcept 函数说明符是否旨在 boost 性能，因为生成的对象中可能没有记录异常的代码，因此应尽可能将其添加到函数声明和定义中？我首先想到了可调用对象的包装器，其中 noexcept 可能会产
Angularjs Promise.all 不会更新范围，而 $q.all 会
我正在使用 Angularjs 1.3.7，刚刚发现 Promise.all 在成功响应后不会更新 angularjs View ，而 $q.all 会。由于 Promises 包含在 native
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用
haskell - 为什么 Haskell 会(显然)不一致地推断出特定类型？
我正在编写一个玩具(物理)矢量库，并且遇到了 GHC 坚持认为函数应该具有 Integer 的问题。是他们的类型。我希望向量乘以向量以及标量(仅使用 * )，虽然这可以通过仅使用 Vector 来实现
email - Swiftmailer 不会发送邮件，但是 mail() 会
PHP 的 mail() 函数发送邮件正常，但 Swiftmailer 的 Swift_MailTransport 不起作用! 这有效: mail('user@example.com', 'test
PHP 脚本不会转储 SQL 但 phpMyAdmin 会
我尝试通过 php 脚本转储我的数据，但没有命令行。所以我用 this script 创建了我的 .sql 文件然后我尝试使用我的脚本: $link = mysql_connect($host, $u
python sqlite3 不会执行连接，但单独的 sqlite3 会
使用 python 2.6.4 中的 sqlite3 标准库，以下查询在 sqlite3 命令行上运行良好: select segmentid, node_t, start, number,title
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用

首页

博学

6Ren·AI

商城

r - 为什么合并会产生比原始数据更多的行？