gpt4 book ai didi

RMySQL dbReadTable 耗时太长

转载 作者:搜寻专家 更新时间:2023-10-30 23:34:25 25 4
gpt4 key购买 nike

我在 R 中使用 RMySQL 包和 DBI 包。当我运行代码时,

dbReadTable(con, "data") 

这需要很长时间。

我认为表格是非常大的数据。关于如何加快此过程的任何想法?

谢谢,

最佳答案

尽量让数据库做尽可能多的过滤和处理。数据库比 R 有更多的优化操作的方法,并且不受 RAM 的严格限制。它还减少了必须通过网络传输的数量。

常见的策略是

  • 使用 WHERE 子句减少行数
  • 明确列出(仅必要的)列,而不是使用 *
  • 尽可能多地在 SQL 中进行聚合(例如,GROUP BY + MAX)
  • 使用INSERT 查询从一个表写入到另一个表,因此数据甚至不需要通过 R。

我想 RMySQL 应该比新的 odbc 更快包,但值得尝试。

什么是“永远”? 5分钟还是5小时?一旦数据到达 R,事情仍然很慢吗?如果事情仍然太慢而不可行,请考虑升级到类似 sparklyr 的级别。 .

关于RMySQL dbReadTable 耗时太长,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44939081/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com