gpt4 book ai didi

scala - MongoDB - 匿名化 600k 记录

转载 作者:可可西里 更新时间:2023-11-01 10:44:48 25 4
gpt4 key购买 nike

我正在尝试对大约 60 万条记录的大型数据集进行匿名处理(删除电子邮件等敏感信息),以便将其用于某些性能测试。

我正在将 Scala (Casbah) 与 Mongo 结合使用。实际脚本非常简单明了。当我运行该脚本时,整个过程开始时非常快 - 每 2-3 秒解析 1000 条记录,但它的速度大大降低并开始非常缓慢地爬行。

我知道这很模糊,没有太多细节,但知道为什么会发生这种情况,以及关于如何加快速度的任何提示吗?

最佳答案

事实证明这是驱动程序的问题,而不是 Mongo 的问题。当我使用 mongo shell 尝试相同的插入时,它毫不费力地通过了。

更新

因此,我尝试了两种方法。插入现有集合并将结果转储到新集合中。第一种方法对我来说更快。当然,永远不要假设这总是正确的,并且在选择第一种方法而不是第二种方法之前必须进行基准测试。在这两种情况下,Mongo 都非常非常快(意思是——完成这件事不需要几个小时)。我用来连接 Mongo 的 Java 接口(interface)有问题,这对我来说更像是一个愚蠢的错误。

关于scala - MongoDB - 匿名化 600k 记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7709648/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com