gpt4 book ai didi

postgresql - Hadoop 或 Postgresql 进行有效处理

转载 作者:可可西里 更新时间:2023-11-01 15:18:57 26 4
gpt4 key购买 nike

我是一名学生,正在尝试对大型数据集使用一些机器学习算法。我们的训练集中有大约 1.4 亿条记录(目前在 postgresql 表中),并且有五个表有大约 600 万条记录,展示了主键 - 外键关系。

我们只有2台配置如下的机器1) 6GB 内存,第二代 i5 处理器2) 8GB 内存,第二代 i7 处理器

我们现在正计划在运行我们的统计分析之前将它们分成逻辑组,因为周转时间非常长。

1) 我应该在 postgresql 中将它们拆分成单独的表并且它们使用 MATLAB 或 R 进行编程 要么2)我应该通过移植数据库来使用hadoop和hbase吗3) 我是否应该结合使用它们(即根据逻辑组分解它们并转储到 postgresql 数据库中,还设置 hadoop +hbase 进行分析并根据必要的算法使用它。

谢谢

最佳答案

很难相信 Hadoop 在如此小的集群中会有效。如果你可以在没有它的情况下有效地并行化任务——几乎可以肯定它会更有效
我会考虑的另一个考虑因素 - 学习过程中的迭代时间是多少。如果迭代需要几十秒 - 那么 Hadoop 作业开销(大约 30 秒)将太多。
你所做的可以从 Hadoop 中得到 - 是有效的外部并行排序 - 这就是洗牌阶段。如果需要 - 考虑使用 hadoop。
另请注意,通常将关系模式移植到 HBase 并不容易——因为不支持连接。

关于postgresql - Hadoop 或 Postgresql 进行有效处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9606192/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com