r - 比较两个数据框并创建一个报告，在存在差异的地方给出字段名和旧/新值-6ren

r - 比较两个数据框并创建一个报告，在存在差异的地方给出字段名和旧/新值

转载作者：行者123 更新时间：2023-12-04 18:00:57

我有两个数据框，df.old 和 df.new。 df.old 包含 df.new 不包含的额外列。我想将 df.new 中的每个单元格与 df.old 中与同一行(相同的 ID_KEY)列相关的单元格进行比较.然后我想创建一个单独的数据框，它是所有提供 ID_KEY、Fieldname 以及旧值和新值的差异的报告。例如:

df.old:
ID_KEY | Date of Valuation | Original LTV | Tenure | Valuation in Current Condition | Comment
1       22/02/2016         76%     Leasehold     £151,000
2       22/02/2016         75%     Leasehold     £151,000
3       23/02/2016         76%     Leasehold     £150,000
4       24/02/2016         76%     Freehold     £151,000

df.new:
ID_KEY | Date of Valuation | Original LTV | Tenure | Valuation in Current Condition
1       21/02/2016         76%     Leasehold     £151,000
2       22/02/2016         73%     Leasehold     £151,000
3       23/02/2016         76%     Leasehold     £153,000
4       24/02/2016         76%     Leasehold     £151,000

报告:

ID_KEY | Fieldname        |              df.old_value | df.new_value
1      Date of Valuation              22/02/2016   21/02/2016
2      Original LTV                   75%          73%
3      Valuation in Current Condition £150,000     £153,000
4      Tenure                         Freehold     Leasehold

我可以设法用 VBA 编写它，但我的 R 代码有点生疏。我知道有一种更简单的方法可以使用拆分-应用-组合在 R 中编写此代码，但我无法弄明白。

最佳答案

选项 1:一种可能的方法是将数据帧融合成长格式，合并它们，然后过滤它们以查找不匹配的值:

library(reshape2)

df.old2 <- melt(df.old, id.vars = "ID_KEY", value.name = "df.old_value")
df.new2 <- melt(df.new, id.vars = "ID_KEY", value.name = "df.new_value")

df.merged <- merge(df.old2, df.new2, by = c("ID_KEY","variable"))
df.merged[df.merged$df.old_value!=df.merged$df.new_value,]

给出:

   ID_KEY                    variable df.old_value df.new_value
1       1           Date.of.Valuation   22/02/2016   21/02/2016
6       2                Original.LTV          75%          73%
12      3 Valuation.Current.Condition     £150,000     £153,000
15      4                      Tenure     Freehold    Leasehold

选项 2: 另一种方法是先将数据帧合并，然后使用增强的将结果融合成长格式data.table 包中的 melt 函数，它能够根据模式在输出中提供多个值列:

# create a vector with the common fieldnames
fnames <- names(df.new)[-1]
# or:
fnames <- names(df.old)[names(df.old) %in% names(df.new)][-1]

# merge the dataframes together based on "ID_KEY"
df1 <- merge(df.old, df.new, by = "ID_KEY")

# melt 'df1' into long format and check where the two value columns don't match
library(data.table)
melt(setDT(df1), "ID_KEY", 
     measure.vars = patterns(".x",".y"),
     variable.name = "fieldname",
     value.name = c("df.old_value","df.new_value"))[, fieldname := fnames[fieldname]
                                                    ][df.old_value!=df.new_value][]

给出:

   ID_KEY                   fieldname df.old_value df.new_value
1:      1           Date.of.Valuation   22/02/2016   21/02/2016
2:      2                Original.LTV          75%          73%
3:      4                      Tenure     Freehold    Leasehold
4:      3 Valuation.Current.Condition     £150,000     £153,000

注意:我使用的数据在 df.old 中也有一个不匹配的 ID_KEY:

df.old <- read.table(text="ID_KEY  Date.of.Valuation  Original.LTV  Tenure  Valuation.Current.Condition  Comment
1       22/02/2016         76%     Leasehold     £151,000  Comment
2       22/02/2016         75%     Leasehold     £151,000  Comment
3       23/02/2016         76%     Leasehold     £150,000  Comment
4       24/02/2016         76%     Freehold     £151,000  Comment
5       24/02/2016         76%     Freehold     £151,000  Comment", header=TRUE)

df.new <- read.table(text="ID_KEY  Date.of.Valuation  Original.LTV  Tenure  Valuation.Current.Condition
1       21/02/2016         76%     Leasehold     £151,000
2       22/02/2016         73%     Leasehold     £151,000
3       23/02/2016         76%     Leasehold     £153,000
4       24/02/2016         76%     Leasehold     £151,000", header=TRUE)

新示例数据的更新:

将方法应用于 reshape2:

df.old2 <- melt(df.old, id.vars = "Loan Identifier", value.name = "df.old_value")
df.new2 <- melt(df.new, id.vars = "Loan Identifier", value.name = "df.new_value")

df.m <- merge(df.old2, df.new2, by = c("Loan Identifier","variable"))
df.r <- df.m[which(df.m$df.old_value!=df.m$df.new_value),]

给出:

> head(df.r)
   Loan Identifier                       variable df.old_value df.new_value
1        960959610 Advance Amount (Gross Advance)       172499       166000
8        960959610                Completion date   1446422400   1447286400
11       960959610                      Income B1        22800        47211
12       960959610                      Income B2        22000        19461
13       960959610                  Interest Rate       0.0309       0.0409
21       960959610                  Original Term          420          240

对于 data.table，第一个示例数据集上使用的方法不起作用。类似于 reshape2 方法的可行解决方案:

# making copies, not necessarily needed
df.o <- as.data.table(df.old)
df.n <- as.data.table(df.new)

df.o2 <- melt(df.o, id.vars = "Loan Identifier", value.name = "df.old_value")
df.n2 <- melt(df.n, id.vars = "Loan Identifier", value.name = "df.new_value")

df.j <- df.n2[df.o2, on = c("Loan Identifier","variable")
              ][df.j$df.old_value!=df.j$df.new_value]

给出:

> head(df.j)
   Loan Identifier             variable                        df.new_value                        df.old_value
1:       960974101 Employment Type – B1 Employed or full loan is guaranteed                       Self-employed
2:       960959708 Employment Type – B1 Employed or full loan is guaranteed                       Self-employed
3:       960959806 Employment Type – B1                       Self-employed Employed or full loan is guaranteed
4:       960973707    Property Postcode                             LE4 8EE                                 TA1
5:       960974101    Property Postcode                             FY7 8HN                                 BB2
6:       960959610    Property Postcode                            RG18 4QS                                 BH9

关于r - 比较两个数据框并创建一个报告，在存在差异的地方给出字段名和旧/新值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35555621/

文章推荐： vba - 粘贴到另一个工作表的下一行

nginx - 旧 SSL 证书在续订后仍在使用
几周前，我安装了一个新的 ssl 证书来替换一个过期的证书。 .crt 和 .key 的文件名保持不变。只是内容变了。现在，当我访问我的网站时，它说证书已过期，我看到它正在使用旧的证书链。我可以确认
php - 旧 PHP 版本中的类命名空间
这个问题在这里已经有了答案: Make namespaces backwards compatible in PHP (4 个回答) 8 年前关闭。我真的很想在我的工作流程中采用命名空间。据我了解，
codenameone - 旧 GUI 中的主题问题
我从 CN1 开始，然后以 Todo App 为例。当我在 Netbeans 中运行 de app 时，只出现一个空白表单，我更改了主题，添加了一个 jpg 图像并使用旧的 GUI Builder 在
Laravel 4 - 单选按钮的输入::旧
我想知道是否有一些 Laravel 人员可以帮忙。我有一个表单，其中有 2 个单选按钮，当表单提交时，它会通过验证器，如果验证器失败，它会返回表单，使用输入填充字段并显示错误消息。我似乎无法对单选
java - 旧 Java 代码中的异常
我正在使用 Java 中没有泛型的旧代码。 hashMap 是在该代码中定义的，没有泛型，例如: Map A = new HashMap(); 在这段代码中，我想如何确定要在键和值中放入什么内容，以及
java - 旧 Java 项目兼容性
我想问一个关于项目兼容性的问题。我的论文项目是在Windows Vista和XP上在JRE 1.6和JDK 1.6下开发的。该项目使用Java新套接字。今天我尝试在 Windows 8(64 位)机器
python - 旧 Plone 产品的自动化蛋化
有谁知道一个脚本可以将旧的 Products 命名空间样式 Plone 附加组件包装到 Egg 中吗？生成setup.py 创建目录结构还需要采取其他措施吗？鸡蛋化过程中有什么陷阱吗？最佳答案
mysql - 旧数据，旧 MySQL
我已经运行 MySQL 5.6.12 一段时间了。我决定将我的 WAMP 服务器更新到最新的 PHP 版本。在此过程中，它还将 MySQL 更新到 5.6.17，保留 .12 数据，但无法访问。如
mysql - 旧 MySQL 代码出现空格错误
最近，我一直在尝试根据互联网上的各种旧教程编写论坛代码，但是我最近遇到了一个问题 - 尽管我完全按照教程所述进行操作，但我收到了空格错误。我认为这可能是因为某些 MySQL 命令可能已更改。如果有人可
php - 旧 MySQL 中的错误查询
我正在创建对 Count 表的查询。 $Month = $_POST['Month']; $query = "SELECT ANY_VALUE(AD) AS ad, COU
旧 mysql 版本的 mysqldump
如果我使用 mysqldump 工具备份旧版本的 MySql 数据库，是否存在任何已知风险？例如，如果我在生产机器上使用 mysqldump 5.6 来备份 MySql 5.X 数据库。最佳答案有
javascript - 旧 JSON 值已更改
当将 columnsData 值分配给 columns 时，我有两个 JSON 对象 columnsData 和 columns，这两个值都会更改。 var columnsData = [
c++ - 旧 C++ 编译器中的防护
我有一个需要在 gcc 4.4 上编译的多线程应用程序，我不允许使用 c++0x 标志。我希望一个变量以原子方式运行，但不幸的是没有 C++0x 标志我无法使用 atomic在 C++ 中。我试过
android - 更改时间后获取上一个(旧)时间
我可以借助广播事件(ACTION_TIME_CHANGED 和 ACTION_DATE_CHANGED)获取时间更改事件。我需要在时间更改后获取之前的时间。例如，当前时间是 10:00。我要把时间改
Android - DatePickerDialog - 旧 API
我正在尝试在我的 Android 应用程序中创建一个 DatePickerDialog，但是当我创建一个 DatePickerDialog 时，我收到以下消息:Call requires API le
php - Laravel 旧()不工作
{!! Form::open(array('route' => 'posts.store', 'data-parsley-validate' => '')) !!} {{ Form::labe
ios - 旧 iOS 设备的蓝牙框架
我的问题与 iOS 周围的蓝牙技术有关。我看过关于蓝牙低功耗 101、新功能、基础知识等的 WWDC，以及关于使用 iOS 5 及更高版本中可用的 CoreBluetooth 框架的内容。我浏览了不同
ios - 旧 View 的线程仍在运行
我有一个有五个屏幕的应用。在每个屏幕上，我在 viewDidLoad 中从服务器访问数据。在每个屏幕上我都有下一个按钮。当我从屏幕一转到屏幕五(通过单击下一步 4 次)时，在 NSLog 中，我
php - 旧 Symfony 应用程序的问题
我最近在一家网络报纸找到了一份工作。在网站上，我们有一个非常古老且重要的 Symfony 应用程序，它是为一位年长的开发人员编写的，已经消失很久了。该应用程序是神圣的:是报纸收入的血液。问题是我们没有
旧 "struct hack"(?) 的符合变体
我相信我已经找到了一种方法来实现类似可移植 C89 中众所周知的“struct hack”的方法。我很好奇这是否真的严格符合 C89。主要思想是:我分配足够大的内存来容纳初始结构和数组元素。确切的大

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 比较两个数据框并创建一个报告，在存在差异的地方给出字段名和旧/新值