r - dplyr 筛选具有大量匹配项的数据库表-6ren

r - dplyr 筛选具有大量匹配项的数据库表

转载作者：太空狗更新时间：2023-10-30 01:57:37

25

4

我正在使用 dplyr 和 dbplyr 包来连接我的数据库。我有一张包含数百万条记录的表。我还有一个值列表，这些值对应于我希望过滤的同一个表中的键。通常我会做这样的事情来过滤表格。

library(ROracle)

# connect info omitted
con <- dbConnect(...)

# df with values - my_values

con %>% tbl('MY_TABLE') %>% filter(FIELD %in% my_values$FIELD)

但是，my_values 对象包含超过 500K 个条目(因此我不在此处提供实际数据)。当它们基本上被放在 IN 语句中时，这显然效率不高(它基本上挂起)。通常，如果我正在编写 SQL，我会创建一个临时表并编写一个 WHERE EXISTS 子句。但在这种情况下，我没有写权限。

我怎样才能使这个查询在 R 中更高效？

最佳答案

请注意这是否有帮助，但有一些建议:

寻找其他过滤条件。例如，如果 my_values$FIELD 是连续的，或者值列表可以由其他一些列推断出来，您可以向 between 过滤器寻求帮助:filter(在(场，a，b))之间？
分而治之。将 my_values 分成小批处理，对每个批处理进行查询，然后合并结果。这可能需要一段时间，但应该很稳定，值得等待。

关于r - dplyr 筛选具有大量匹配项的数据库表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45868352/

25

4

0

文章推荐： Python:两个向量列表中每个向量的点积

文章推荐： python - Django 多数据库(完整性检查)

文章推荐： python - 如何在读取文本文件时删除多个空格

java - 实时对象检测(筛选)？
我正在研究这个领域以获得实时对象检测。视频示例: http://www.youtube.com/watch?v=Bm5qUG-06V8 http://www.youtube.com/watch?v=
c - 有效地存储列表列表(筛选)
问题我正在为 C 语言的项目寻找一种数据结构来存储列表列表。我需要能够访问仅给定 n 的第 n 个列表(这些术语将被乱序访问)。各个列表将包含 1 到 M 之间的整数(为了具体起见，假设 M = 2
elm - 筛选，也许， Elm
我有一个List (Maybe a)，我想过滤出Nothing的实例。我大概已经做到了，但是对所需的代码量却不满意: removeNothingFromList : List (Maybe a) ->
regex - 筛选 Blazor 输入字段
我对 Blazor 有基本的输入当我输入我认为无效的字符(例如“/”或“:/\\""|?* ]"; Search = Regex.Replace(args.Value.ToSt
azure - 筛选 Azure 服务总线主题
我有一个主应用程序，允许用户编辑所有数据(大约 20 个字段)。更新后，我将其添加到服务总线主题中，系统的其他区域也订阅了该主题。其中一个订阅仅关心单个字段(电话号码)是否更新。我想知道处理这个问题
elasticsearch - ElasticSearch-筛选，分组并计算每个组的结果
我是ElasticSearch的新手，需要帮助解决以下问题: 我有一组包含多个产品的文档。我想通过“Apple”过滤产品属性product_brand并获取与过滤器匹配的产品数量。但是，结果应按文档I
django - 筛选 PointField 的查询集字段以查找特定距离范围内的项目不正确
我想过滤查询集中特定范围内的项目。这就是我的模型的样子 class modelEmployee(models.Model): user = models.ForeignKey(User, on
c - 筛选 8 位素数
尽管数组 a 的大小不断增加，但我无法找到 8 位素数。它适用于较小的数字: #include #include int main() { int n,a[100000],i,m,k;
c# - 筛选 gridview 数据源
我不希望能够使用代码隐藏来搜索我的 gridview 结果。我有一个按钮和一个 GridView :
c# - 冲浪/筛选/用于模板匹配
我想使用 sift/surf 进行模板匹配。图像可以有 1...n 个目标。使用 surf/sift 只能提取一个目标。一种想法是将图像分割成多个片段，然后寻找筛选/冲浪匹配。它有效，但显然由于速度和
java - 筛选 getAll 查询结果
这是使用 Xodus API 限制实体查询的方法: final EntityIterable allUsers = txn.getAll(storeName).skip(skip).take(limi
python - 筛选 Excel 表格
我有 2 个 excel 文件:IDList.csv 和 Database.csv。 IDList 包含我要从数据库中过滤掉的 300 个 ID 号的列表，其中包含 2000 个条目(在数据库中留下
c# - 筛选 TreeView 节点的最佳方式
过滤 Treeview 节点的最佳/有效方法是什么？例如:我输入“abc”，只有包含“abc”的节点可见。然后我输入 “abcd”，我应该会看到唯一包含 “abcd” 文本的节点。依此类推，所以每次
reporting-services - 按数据集或 tablix 筛选
我有两个关于报告的 tablix，以及一个用于向 tablix 提供数据的数据集。我在报告中有一个多选参数，我需要根据该参数中的值过滤结果。有什么区别，如果有，什么是更好的解决方案: 直接在数据集或
c# - C#弹性搜寻-巢状查询/筛选
我对 flex 搜索/ NEST还是很陌生，需要一些帮助才能查询/过滤我的数据。我有一个产品 list 。而且这些产品可以具有任意数量的选项，并具有与之相关的值。而且我需要能够按选项名称及其值来过滤
PowerBI CALCULATETABLE，使用 SELECTEDVALUE 筛选
我正在使用过滤条件从原始表创建一个表，其中我的过滤值来自 SELECTEDVALUE 表格没有根据 SELECTEDVALUE 进行过滤，如果我用一个真实的值替换它就可以了。代码(不起作用) Tra
msbuild - 筛选 NUnit MSBuild 任务的类别？
我正在设置一个 MSBuild 项目来运行一些 NUnit 测试，使用 MSBuild Community Tasks Project 。通过这些设置，我将能够运行 NUnit 测试:
PowerBI CALCULATETABLE，使用 SELECTEDVALUE 筛选
我正在使用过滤条件从原始表创建一个表，其中我的过滤值来自 SELECTEDVALUE 表格没有根据 SELECTEDVALUE 进行过滤，如果我用一个真实的值替换它就可以了。代码(不起作用) Tra
kotlin - 筛选、减法或分组依据——什么是最有效的？ ( Kotlin )
例如，我们有一个列表，我们想用特定的谓词将其分成两部分。首先，我们可以使用filter和filterNot。 val trueList = list.filter(predicate) val fa
c# - 筛选 Outlook AppointmentItem 给出奇怪的结果
我尝试为 [Start] 使用某种范围: var calendar = outlookApplication.GetNamespace("MAPI").GetDefaultFolder(OlDefau

首页

博学

6Ren·AI

商城

r - dplyr 筛选具有大量匹配项的数据库表