- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有 20 多个不同的数据表,这些数据表由相同的编码系统(北美行业分类系统,NAICS)索引,我想将它们合并到一个表中。
问题是每个表中都有不同级别的详细信息,当我加入时,我想通过失败编码系统的层次结构直到找到匹配来找到最佳匹配。
常规 left_join
将不起作用,因为并不总是完全匹配。我已经查看了 fuzzyjoin
包,但有点难以理解。
我想从代码表开始:
t_master
# A tibble: 360 x 1
NAICS17
<chr>
1 311111
2 311119
3 311211
4 311212
5 311213
6 311221
7 311224
8 311225
9 311230
10 311313
# ... with 350 more rows
t_master <- structure(list(NAICS17 = c(311111L, 311119L, 311211L, 311212L,
311213L, 311221L, 311224L, 311225L, 311230L, 311313L)), row.names = c(NA,
-10L), class = "data.frame")
然后循环遍历所有其他表,在每个表中找到最佳匹配,然后连接所有变量。有时这很简单,因为存在完全匹配(来自 t_asm 的 311111 和 311119 将连接到 t_master 中的 311111 和 311119):
t_asm
# A tibble: 8,167 x 3
NAICS17 CEXBLD CEXMCH
<chr> <chr> <chr>
1 31-33 16806796 96986337
2 311 2099542 9063451
3 3111 92429 517196
4 31111 92429 517196
5 311111 49756 225494
6 311119 42673 291702
7 3112 192911 1016770
8 31121 75310 267693
9 31121M 75310 267693
10 31122 94339 546407
# ... with 8,157 more rows
t_asm <- structure(list(NAICS17 = c("31-33", "311", "3111", "31111", "311111",
"311119", "3112", "31121", "31121M", "31122"), CEXBLD = c("16806796",
"2099542", "92429", "92429", "49756", "42673", "192911", "75310",
"75310", "94339"), CEXMCH = c("96986337", "9063451", "517196",
"517196", "225494", "291702", "1016770", "267693", "267693",
"546407")), row.names = c(NA, -10L), class = c("tbl_df", "tbl",
"data.frame"))
但有时我希望它寻找最佳匹配,即使它不太详细(来自 t_brdis_2015 的 311 将加入 t_master 中的 311111 和 311119)
t_brdis_2015
# A tibble: 90 x 3
NAICS17 rdcost_total rdcost_wage
<chr> <chr> <chr>
1 0 355821 204170
2 31 236132 129375
3 32 236132 129375
4 33 236132 129375
5 311 4838 2945
6 312 1002 532
7 313 748 481
8 314 748 481
9 315 748 481
10 316 748 481
# ... with 80 more rows
t_brdis_2015 <- structure(list(NAICS17 = c("0", "31", "32", "33", "311", "312",
"313", "314", "315", "316"), rdcost_total = c("355821", "236132",
"236132", "236132", "4838", "1002", "748", "748", "748", "748"
), rdcost_wage = c("204170", "129375", "129375", "129375", "2945",
"532", "481", "481", "481", "481")), class = c("tbl_df", "tbl",
"data.frame"), row.names = c(NA, -10L))
这将是一个左连接,我希望 t_master 的所有观察结果与来自其他数据表的一个观察结果连接起来。
故障回复的方法是(以311111为例):
谢谢,如果有任何不清楚的地方,请告诉我。
最佳答案
我会执行一系列更新连接:
library(data.table)
ncs = seq_len(max(nchar(t_master$NAICS17)))
nms = copy(names(t_asm))
xnms = sprintf("x.%s", nms)
tnms = replace(nms, nms == "NAICS17", "m")
t_asm2 <- data.table(t_asm)
out = data.table(t_master)
out[, NAICS17 := as.character(NAICS17)]
out[, m := NA_character_]
for (nc in rev(ncs)){
out[is.na(m), target := substr(NAICS17, 1, nc)]
out[is.na(m),
(tnms) := t_asm2[.SD, on=.(NAICS17 = target), mget(xnms)][]
]
if (!anyNA(out$m)) break
}
out[, target := NULL][]
NAICS17 m CEXBLD CEXMCH
1: 311111 311111 49756 225494
2: 311119 311119 42673 291702
3: 311211 31121 75310 267693
4: 311212 31121 75310 267693
5: 311213 31121 75310 267693
6: 311221 31122 94339 546407
7: 311224 31122 94339 546407
8: 311225 31122 94339 546407
9: 311230 3112 192911 1016770
10: 311313 311 2099542 9063451
m
是匹配的值; target
是我们在循环的当前迭代中尝试匹配的值。迭代向后进行,从最长的代码开始。 (查看正在迭代的 rev(ncs)
。)
通过过滤到 is.na(m)
,我们将跳过在早期迭代中匹配的行。如果每一行都匹配,测试 anyNA(out$m)
允许我们提前退出。
copy
只是一种避免 Why does data.table update names(DT) by reference, even if I assign to another variable? 中提到的问题的措施。
关于R 函数在 left_join 中进行故障回复?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55538354/
我有多个 InOut 模式的顺序队列,每个队列通向一个 Camel 处理器。如果处理器花费太多时间进行处理,我希望请求-答复检测到超时并发送 ExchangeTimedOutException。Cam
我是一名学生,试图了解更多关于 C# 中的 ARP 和套接字的信息 为此,我尝试使用原始 Socket 发送 ARP 请求和回复。在 C# 中。 我已经在一个字节数组中手动重建了一个 ARP 回复
我正在使用 Amazon Web Services 数据库 dynamodb。它返回一个 JSON,看起来像这样: {"Responses":{"friends":[{"to_username":"u
我有 servlet,它创建 html 文件,然后将其转换为 pdf 文件: private void ConvertHTMLtoPDF(String sConvertationProgramm, S
我正在为我的项目使用 Mailkit 库 (Imap)。 我可以轻松地通过 SmtpClient 发送新消息。 目前我正在研究如何回复特定邮件。是否可以向该回复邮件添加更多收件人? @jstedfas
这个问题已经有答案了: How to parse JSON in Java (36 个回答) 已关闭 7 年前。 请您告诉我如何解析 JSON 回复。我从 https://api.privatbank
我正在尝试从事 YouTube 视频评级工作。但我被困在这里了。这两个 YouTube 评级请求有什么区别? https://www.googleapis.com/youtube/v3/videos/
我搜索了该网站,令人惊讶的是没有找到任何适合我情况的答案。所以我发布了这个问题。 我正在使用 jQuery AJAX 来获取网页并将其动态添加到网站。但我的代码不起作用并抛出错误 ERROR Type
我正在编写一个 C 程序来搜索本地网络上的 smb 共享并安装它们。为了获取找到的 smb 服务器的主机名,我向服务器发送了 udp nbns 数据包。数据包正确,服务器回复。我正在使用wiresha
我正在尝试使用 Java 创建自己的 WebSocket 服务器。 当我的客户端连接时,我收到以下请求: (14): GET / HTTP/1.1 (18): Upgrade: WebSocket (
我正在使用 Nodejs、Express、MySQL、EJS。 用户能够创建帖子和评论/回复评论/回复对这些帖子的回复。 问题:我不知道如何以允许我在 EJS 中呈现它们的方式将数据分类为对象/数组。
我正在用 .NET c++ 编写程序。我正在本地网络上发送广播 ping。我的所有目标设备都能够响应 ping 广播,事实上我在 Wireshark 中跟踪了它们的所有响应。我的目标是检索所有响应站点
我有一个向 JMS MDB 发送请求的客户端。它可以很好地向 MDB 发送消息,但我一辈子都无法弄清楚如何让客户端接收 MDB 发回给它的响应。 编辑:客户端代码是同一实例上的 Web 服务,使用 @
我使用钩子(Hook)函数制作了一个模块。它可以工作,但是当我使用 ping google.com 时,我得到 0045 作为 icmp 类型。但我认为它应该是 0 用于回显回复。我使用了以下打印命令
我正在用 C 从头开始编写一个网络库。我已经实现了以太网协议(protocol),现在我想让 ARP 工作。发送请求/回复工作正常,但接收工作不正常。当我发送一个发送请求并等待它之后的回复时,re
我在替换字符串的一部分时遇到问题。现在这段代码。我的目标是针对包含此字典中的键的每个字符串。 mapping = { "St": "Street", "St.": "Stree
我有一个 WCF p2p 网状网络,它运行良好,适合单向对话。我正在研究是否可以调用一种方法来添加两个数字并返回和总和。 但是我在尝试连接时遇到错误: 契约(Contract)需要请求/回复,但绑定(
大家好,我正在尝试使用分块编码流式传输多媒体数据。因此,我首先尝试使用分块编码发送文本数据。 这是我的代码。我创建了一个服务器套接字,我在上面监听请求(端口 80),回复请求,然后我的程序终止。无论您
我的 Servlet 中有一些图像,我想将它们下载到我的 Android 应用中。 我正在对这个 URL 执行一个 GET 请求: public static final String URL ="h
文档:https://developers.google.com/apps-script/reference/gmail/gmail-message#replybody-options 当跟进一封电子
我是一名优秀的程序员,十分优秀!