gpt4 book ai didi

python - NoSql 与我自己的自定义二进制文件?

转载 作者:IT王子 更新时间:2023-10-29 00:37:08 29 4
gpt4 key购买 nike

最初,我只需要处理 1.5[TB] 的数据。由于我只需要快速写入/读取(无需任何 SQL),因此我设计了自己的平面二进制文件格式(使用 python 实现)并轻松(并且愉快地)保存了我的数据并在一台机器上对其进行操作。当然,出于备份目的,我添加了 2 台机器用作精确镜像(使用 rsync)。

目前,我的需求不断增长,需要构建一个能够成功扩展到 20[TB](甚至更多)数据的解决方案。 我很乐意继续使用我的平面文件格式进行存储。它快速、可靠,可以满足我的一切需求。

我关心的是复制、数据一致性等(很明显,数据必须分布——不是所有数据可以存储在一台机器上) 通过网络。

是否有任何现成的解决方案(基于 Linux/python)可以让我继续使用我的文件格式进行存储,还可以处理 NoSql 解决方案通常提供的其他组件吗? (数据一致性/可用性/易于复制)?

基本上,我只想确保我的二进制文件在我的网络中是一致的。我正在使用 60 台 core-duo 机器的网络(每台机器都有 1GB RAM1.5TB 磁盘)

最佳答案

方法:使用 The Disco Project 在 Python 中进行分布式 Map reduce

似乎是解决问题的好方法。我用过the disco project有类似的问题。

您可以将您的文件分发到 n 个机器(进程)中,并实现适合您逻辑的 map 和 reduce 函数。

The tutorial of the disco project ,准确描述了如何为您的问题实现解决方案。您会惊讶于只需编写如此少的代码,并且绝对可以保持二进制文件的格式。

另一个类似的选项是使用 Amazon's Elastic MapReduce

关于python - NoSql 与我自己的自定义二进制文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5560523/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com