r - r 中比 sqldf 更快的任何其他进程-6ren

r - r 中比 sqldf 更快的任何其他进程

转载作者：行者123 更新时间：2023-12-02 08:06:15

25

4

我有2个数据框

df1 有 700,000 个数据点

ID1:分类变量有 400 多个类别
Date1:1 年数据
MST1:2级变量1/2
确认号:唯一标识符

示例数据:

ID1 ExtractDate1    MktSeg1 ConfirmationNo
145  3/7/2017          2    29083253
145  3/7/2017          1    29085100
145  3/7/2017          1    29085102
145  3/7/2017          1    29085106
145  3/7/2017          1    29084895
145  3/7/2017          1    29084953

df2 有 100,000 个数据点

ID2:分类变量有 400 多个类别
Date2:1 年数据
MST2:2级变量1/2
session 号:唯一标识符

我想创建一个新变量，标记为 df1，当确认号出现在 df1 和 df2 中时标记为 1，否则为 0

我通过使用以下方法实现了这一点:

combi1 <- sqldf("SELECT Distinct ID1,
            ExtractDate1,
            MktSeg1,
            ConfirmationNo,
            CASE
            WHEN confno IS NOT NULL
            THEN 1
            ELSE 0
            END AS 'Flag'
            FROM df1 
            LEFT JOIN df2  ON ID1 = ID2
            AND ExtractDate2 >= ExtractDate1
            AND ConfirmationNo = confno", drv = "SQLite")

出结果需要20-30多分钟，有没有更好的办法？

我试过了

combi3 <- left_join(tbl_df(df1),tbl_df(df2),
                by = c("ID1" = "ID2" , "ExtractDate1" <= "ExtractDate2", "ConfirmationNo" = "ConfNo")) %>%
      select(distinct(ID1, ExtractDate1, MktSeg1, ConfirmationNo))

它抛出以下错误:

`by` can't contain join column `TRUE` which is missing from LHS

最佳答案

将您提供的数据和类似的数据用于第二个数据框，您可以使用 %in% 运算符:

df1 <- read.table(text = "ID1 ExtractDate1    MktSeg1 ConfirmationNo
145  3/7/2017          2    29083253
                  145  3/7/2017          1    29085100
                  145  3/7/2017          1    29085102
                  145  3/7/2017          1    29085106
                  145  3/7/2017          1    29084895
                  145  3/7/2017          1    29084953", header = TRUE)

df2 <- read.table(text = "ID1 ExtractDate1    MktSeg1 ConfirmationNo
145  3/7/2017          2    29083253
                  145  3/7/2017          1    29085106
                  145  3/7/2017          1    29084895
                  145  3/7/2017          1    29084953
                  145  3/7/2017          1    29084899
                  145  3/7/2017          1    29084959", header = TRUE)

df1$conf_flag <- as.numeric(df1$ConfirmationNo %in% df2$ConfirmationNo)
df1

关于r - r 中比 sqldf 更快的任何其他进程，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51149031/

25

4

0

文章推荐： r - R-将日期值转换为正整数

文章推荐： java - SimpleMappingExceptionResolver 无法解析 404

文章推荐： java - 诊断 NaN 的原因

文章推荐： Angular 5 响应式(Reactive)表单模式验证器

r sqldf 转义双引号
我希望在 sqldf() 中运行以下 sql 语句: select columnA, "new_column_value" as columnB, "column.C" from mytable wh
R - sqldf() 返回零行数据框
我正在尝试使用描述的方法从非常大的 csv 文件中读取选择数据的有效方法 here通过@JD_Long。该方法依赖于同名库中的 sqldf() 函数。我遇到的问题是该函数返回一个空数据框，该数据框具有
r - sqldf:按日期范围查询数据
我正在读取一个具有'%d/%m/%Y'日期格式的巨大文本文件。我想使用sqldf的read.csv.sql来同时读取和按日期过滤数据。这是为了通过跳过许多我不感兴趣的日期来节省内存使用量和运行时间。我
R-sqldf-需要明确的单位进行数字转换
我需要使用日期字段连接 2 个表 > class(pagos$pseudo_1mes) [1] "Date" > class(pseudo_meses$pseudo_1mes) [1] "Date"
mysql - sqldf 在使用子查询时出错
我正在尝试按工作日获取移动平均值，因为我正在使用 sql 查询。数据框是和sqldf代码: ma_782 = sqldf("SELECT t1.Id_indicator,
r 语言 - sqldf 包看不到我的任何数据文件
我已经在我的系统上全新安装了 sqldf 包，但是每当我运行任何 sql 查询时，我都会得到 Error in rsqlite_send_query(conn@ptr, statement) :
sql - 使用 SQLDF 从列中选择特定值
SQLDF 新手在这里。我有一个大约有 15,000 行和 1 列的数据框。数据看起来像: cars autocar carsinfo whatisthat donnadrive car tele
r - 使用模糊合并/sqldf 合并两个数据框
我有以下数据框(df11 和 df22)我想使用“UserID=UserID”和日期差 % separate(DateTime, c("Date", "Time"), sep=" ") %>%
r - sqldf 在排序时将数字列更改为字符 1
今天我发现了一个我无法解释的问题。这是众所周知的行为吗？数据集: structure(list(Original.Unit = c("some unit", "some unit", "some u
r - sqldf 中的 DATEPART()
是否可以在 sqldf 中使用 SQL Server 2008 DATEPART() 典型的 SQL 命令？我正在浏览文档，但没有找到任何与之相关的内容，我不熟悉 SQLite，所以如果我应该那样去
sql - 使用 sqldf 保存时间类
我正在使用 sqldf加入多个表，但我无法保存 times使用 chron 设置的类包上一列。我用了method="name__class" sqldf 的参数函数并用类适本地命名我的列，但我的 ti
r - sqldf、csv 和包含逗号的字段
我花了一段时间才弄清楚这一点。所以，我是answering my own question . 您有一些 .csv，您想要加载它 fast ，您想使用sqldf包裹。您常用的代码会被一些烦人的字段所困
r - LIKE sqldf 上的内连接
如何在 R 中使用 sqldf 将 LIKE 子句与内部联接一起使用？代码: Name <- c("Jack","Jill","Romeo") Name <- as.data.frame(Name)
r - 使用 SQLDF 的示例行
sqldf 有一个获取“X”行的限制选项。我们也可以使用 sqldf 做一个 'x%' 样本吗？例如 > sqldf("select * from iris limit 3") Loading re
r - 在 sqldf 中将整数值转换为日期时间
我正在使用 sqldf 库返回一个具有不同值的数据框，而且只有日期列的最大值。数据框看起来像这样 +------+----------+--------+-----------------+ | NA
r - 使用 sqldf() 选择匹配一百万个项目的行
这是对此处提供的有关使用 sqldf() 的答案的跟进。 https://stackoverflow.com/a/1820610 在我的特殊情况下，我有一个超过 1.1 亿行的制表符分隔文件。我想选择
mysql - sqldf RLIKE 函数
这个问题在这里已经有了答案: Regarding sqldf package/regexp function [duplicate] (1 个回答) 关闭 6 年前。我有以下 mySQL 查询:
python - pandasql::sqldf 不捕获循环变量
我试图用 pandasql::sqldf 循环列表，但这个 sqldf 似乎没有捕获循环变量。以下是我的问题的程式化概述: import pandas as pd from pandasql impo
r - 无法在 Linux 上安装 sqldf
我在 Linux 上运行 R 版本 2.14.1。当我尝试使用安装 sqldf 时 install.packages(sqldf, dependencies=TRUE) 我收到以下错误:(这些错误导
r - R 中的 SQLDF 左连接
我的目标是采用 'matr'，按列 c1 对其进行排序，并保持 unique(c1) where c2 = 1。例如，从这段代码... c1 = c("a",'a','a','b','b','b','

首页

博学

6Ren·AI

商城

r - r 中比 sqldf 更快的任何其他进程