gpt4 book ai didi

bigdata - 在基于 Web 的应用程序中处理大量数据

转载 作者:行者123 更新时间:2023-12-02 18:07:01 25 4
gpt4 key购买 nike

为基于 Web 的应用程序存储大量数据的最佳方式是什么?

每条记录只有 3 个字段,但每天大约有 1.44 亿条记录 - 存储一个月 - 总共 4,464,000,000 条记录。我们四舍五入到 50 亿。

数据必须可通过关键字搜索并尽快向最终用户返回结果。

  • 哪种编程语言?
  • JSON/XML/一些我从未听说过的数据库系统?
  • 什么样的基础设施?想象一下这个系统只能同时满足最多 1,000 个用户的需求。

我假设无论您搜索 10 条记录还是 100 亿条记录,代码都是相同的,您只需提高效率即可。我还认为 mySQL/PHP 没有机会,而且我们将为托管解决方案支付一大笔费用。

确实需要一些关于从哪里开始的指导。谢谢!

最佳答案

大数据生态系统中有许多工具(NoSQL 数据库、分布式计算、机器学习、搜索等)可以为您的问题提供答案。由于您的应用程序写入量很大,因此我会推荐 Apache Cassandra,因为它具有出色的写入性能(尽管它比 MongoDB 等 NoSQL/文档数据库需要更多的数据建模)。您还需要基于 Solr 或 ElasticSearch 的搜索解决方案,以及用于索引和查询的 Map/Reduce。

编程语言并不重要,除非您的业务最终用户将针对您的大数据编写查询,在这种情况下您可以使用非常类似于 SQL 的语言,例如 Hive 或 Pig。为了帮助您入门,以下(最新)链接可能会让您了解如何根据您的需求选择分析堆栈 - 请注意,每个数据库或分布式计算范例都专门针对某些特定用例:

How we picked our analytics stack

另请参阅High Scalability有关公司如何解决可扩展性问题的各种用例。

关于bigdata - 在基于 Web 的应用程序中处理大量数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11522024/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com