gpt4 book ai didi

web-services - 具有高度动态数据的高吞吐量服务的案例研究或示例

转载 作者:行者123 更新时间:2023-12-04 12:14:16 25 4
gpt4 key购买 nike

我正在寻找一些关于我可能必须解决的工作问题的架构理念。

问题。
1) 我们的企业 LDAP 已成为一个“联系人大师”,充满了多年的陈旧数据以及未使用和未维护的属性。
2) 管理层已决定 LDAP 将不再用作公司电话簿。它仅用于授权目的。
3) 公司拥有数百个不同来源的联系人类型数据。我们需要清除 LDAP 中的所有垃圾,并为其他应用程序提供一个中央存储库来存储有关一个人的所有这些数据。

理想的目标
1)有一个单一的来源来存储关于一个人的所有各种属性
2)公司可能有 500k 人的信息(读取 500K 行)
3) 我估计这些人可能有 500 到 1000 个可选属性。 (阅读 500 多列)
4) 数据将主要通过 jms 上的 xml 设置/获取(这个基础设施已经到位)
5) 公司内的个别团体可以“拥有”栏目。只有他们被允许写入他们的列,他们将负责保持数据的清洁。
6) 应在亚秒内返回单个记录查找
7) 系统应在高峰时支持每小时 100 万个请求。
8) 主要目标是为企业提供实时数据,报告是次要目标。
9)我们是一家java、oracle、terradata的小店。我们是典型的大型 IT 商店。

我的想法:
1) 最初我认为 LDAP 可能会工作,但在添加新列时它不会扩展。
2)我的下一个想法是某种无 sql 解决方案,但从我所阅读的内容来看,我认为我无法获得所需的性能,而且它仍然相对较新。我不确定我能否让我的经理为这样一个关键项目签署类似的协议(protocol)。
3)我认为该解决方案将有一个元数据组件,它将跟踪谁拥有这些列以及每列代表什么,以及原始源系统。

感谢您的阅读,并提前感谢您的任何想法。

最佳答案

SQL

使用 Teradata 级工具,基于 SQL 的解决方案可能是可行的。我遇到了一个 article on database不久前讨论过的设计"anchor modeling" .

基本上,这个想法是创建一个单一的、哑的、合成的主键表,而所有真实或元数据都存在于其他表(子集)中,并通过外键 + 连接的方式附加。

我认为这种设计的好处是双重的。首先,出于组织或性能原因,您可以更轻松地划分数据存储。其次,您只需为在任何给定子集中具有数据的记录创建额外的行,因此您使用的空间更少,索引和搜索速度更快。

子集可能基于维护者或其他一些标准。 XML 设置/获取将是每个子集/记录(而不是全局记录)。可以组合和缓存给定记录的所有子集。可以为元数据、搜索索引等创建其他子集,并且可以独立查询这些子集。

NoSQL

NoSQL 看起来类似于 LDAP(至少在理论上),但一个好的 NoSQL 工具的好处将包括对元数据、版本控制和组织的更大抽象。事实上,从我所读到的内容来看,NoSQL 数据存储似乎旨在解决您提出的与扩展和松散结构数据有关的一些问题。有a good question on SO regarding datastores .

生产 NoSQL

另一方面,有少数大公司在大规模环境中使用 NoSQL,例如 Google's Bigtable .它似乎是完美的工具:

6) a single record lookup should be returned in sub seconds
7) system should support 1 million requests per hour at peak.


Bigtable 只能通过 AppEngine 获得(据我所知) .其他类似的技术是 listed here .

其他想法

无论您决定使用哪种技术,更大的图片 View 看起来或多或少都是一样的。例如。划分存储、复合 View 、缓存 View 、将元数据粘贴到某处,以便您可以找到东西。

您所针对的性能特征将需要基于实际使用模式的某种缓存和/或优化。无论您选择哪种解决方案,您都可能无法在设计阶段解决该问题。

关于web-services - 具有高度动态数据的高吞吐量服务的案例研究或示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3455168/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com