gpt4 book ai didi

mysql - 比较大数据集

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:25:04 25 4
gpt4 key购买 nike

我正在寻找一种有效的方法来比较 2 个太大而无法放入内存(1M 或更多)的数据集。我把它们都放在 MySQL 中作为表。我试图找到服务器和客户端之间的区别,并找到要在客户端上更新、创建和删除的内容。我可以之前对数据进行排序或让它们保持排序。

input:
server = [
{:id => 7, :rev => 1, :uuid => 111},
{:id => 8, :rev => 3, :uuid => 222},
{:id => 9, :rev => 1, :uuid => 333},
]

client = [
{:id => 8, :rev => 2, :uuid => 222},
{:id => 9, :rev => 1, :uuid => 333},
{:id => 6, :rev => 1, :uuid => 444},
]

expected output:
create: [{:id => 7, :rev => 1, :uuid => 111}]
update: [{:id => 8, :rev => 3, :uuid => 222}]
delete: [{:id => 6, :rev => 1, :uuid => 444}]

我正在寻找一种方法来划分这个差异问题并将其分配给多个工作人员/节点。我可以使用不同的数据存储,如果它可以在数据存储上而不是在 ruby​​ 或 c 中完成,那就太好了。有什么建议吗?

最佳答案

您可以创建数据 key 的散列并相应地分配工作。前任。假设一个简单的散列函数是“id mod 2”。所以所有偶数 id 都由一台机器处理,所有奇数 id 都由第二台机器处理。

在每台机器上,数据需要按顺序排列。

关于mysql - 比较大数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18129915/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com