gpt4 book ai didi

r - dplyr 筛选具有大量匹配项的数据库表

转载 作者:太空狗 更新时间:2023-10-30 01:57:37 25 4
gpt4 key购买 nike

我正在使用 dplyrdbplyr 包来连接我的数据库。我有一张包含数百万条记录的表。我还有一个值列表,这些值对应于我希望过滤的同一个表中的键。通常我会做这样的事情来过滤表格。

library(ROracle)

# connect info omitted
con <- dbConnect(...)

# df with values - my_values

con %>% tbl('MY_TABLE') %>% filter(FIELD %in% my_values$FIELD)

但是,my_values 对象包含超过 500K 个条目(因此我不在此处提供实际数据)。当它们基本上被放在 IN 语句中时,这显然效率不高(它基本上挂起)。通常,如果我正在编写 SQL,我会创建一个临时表并编写一个 WHERE EXISTS 子句。但在这种情况下,我没有写权限。

我怎样才能使这个查询在 R 中更高效?

最佳答案

请注意这是否有帮助,但有一些建议:

  1. 寻找其他过滤条件。例如,如果 my_values$FIELD 是连续的,或者值列表可以由其他一些列推断出来,您可以向 between 过滤器寻求帮助:filter(在(场,a,b))之间
  2. 分而治之。将 my_values 分成小批处理,对每个批处理进行查询,然后合并结果。这可能需要一段时间,但应该很稳定,值得等待。

关于r - dplyr 筛选具有大量匹配项的数据库表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45868352/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com