- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我将实现一个通知系统,并且试图找出一种在数据库中存储通知的好方法。我有一个使用PostgreSQL数据库的Web应用程序,但是关系数据库对于这种用例似乎并不理想;我想支持各种类型的通知,每种通知都包含不同的数据,尽管数据的子集对于所有类型的通知都是通用的。因此,我认为NoSQL数据库可能比尝试规范化关系数据库中的模式更好,因为这非常棘手。
我的应用程序托管在Amazon Web Services(AWS)中,我一直在寻找DynamoDB来存储通知。这是因为它是托管的,因此我不必处理它的操作。理想情况下,我想使用MongoDB,但我真的更喜欢不必自己处理数据库的操作。我一直在努力想出一种在DynamoDB中完成我想做的事情的方法,但是我一直在努力,因此我有几个问题。
假设我要为每个通知存储以下数据:
一个ID
通知接收者的用户ID
通知类型
时间戳记
是否已阅读/看到
有关通知/事件的元数据(对此无需查询)
现在,我希望能够查询给定用户的最新X通知。另外,在另一个查询中,我想获取特定用户的未读通知的数量。我试图找出一种方法,可以索引我的表以有效地做到这一点。
我可以排除仅具有哈希主键的情况,因为我不会仅通过哈希键进行查找。我不知道“哈希和范围主键”在这里是否对我有帮助,因为我不知道将哪个属性作为范围键。我可以将唯一的通知ID作为哈希键,将用户ID作为范围键吗?这样可以让我仅通过范围键进行查找,即不提供哈希键吗?如果可能的话,也许二级索引可以帮助我按时间戳排序。
我还查看了全局二级索引,但是这些问题是,在查询索引时,DynamoDB仅可以返回投影到索引中的属性-由于我希望返回所有属性,因此我将不得不重复我的所有数据,这似乎很荒谬。
如何索引通知表以支持用例?可能吗,或者您还有其他建议吗?
最佳答案
注意:使用像DynamoDB这样的云存储时,我们必须了解存储模型,因为这将直接影响
您的性能,可伸缩性和财务成本。它是不同的
而不是使用本地数据库,因为您不仅要为
您存储的数据以及执行的操作
数据。例如,删除记录是WRITE操作,因此如果
您没有有效的清理计划(您的情况
时间序列数据特别需要一个),您将付出代价。你的
处理小数据量时,数据模型不会显示问题
但是在需要扩展时肯定会破坏您的计划。那是
说,决策就像创建(或不创建)索引,定义适当的
键的属性,创建表细分等
使整个过程变得与众不同。选择DynamoDB(或更多)
一般而言,键值存储)
权衡需要做出决定,您需要清楚地了解
有关可以使用该工具的存储模型的某些概念
有效地,选择正确的按键确实很重要,但只有
冰山一角。例如,如果您忽略了事实,
处理时间序列数据,无论使用什么主键或索引
您定义的情况下,您的预配置吞吐量将不会得到优化,因为
它分布在整个表(及其分区)中,而不是
仅是经常访问的数据,这意味着未使用的数据是
仅仅因为它是吞吐量的一部分而直接影响您的吞吐量
表。这导致以下情况:
ProvisionedThroughputExceededException
在以下情况下“意外”抛出
您肯定知道预配置吞吐量应该足以满足您的需求
需求,但是,被不均匀访问的表分区
已达到其限制(更多详细信息here)。
下面的帖子提供了更多详细信息,但我想带给您一些阅读的动力,并理解,尽管您现在当然可以找到一个更简单的解决方案,但这可能意味着您在碰壁时从头开始(这种“隔离墙”可能是由于高昂的财务成本,性能和可伸缩性方面的限制或两者的结合而来。
问:我可以将唯一的通知ID作为哈希键,将用户ID作为范围键吗?这样可以让我仅通过范围键进行查找,即不提供哈希键吗?
答:DynamoDB是键值存储,这意味着最高效的查询会使用整个键(哈希或哈希范围)。仅由于您没有密钥而使用Scan
操作实际执行查询绝对是您的数据模型中就您的需求而言不足的标志。有几件事情需要考虑,许多选择可以避免此问题(下面有更多详细信息)。
现在,在继续之前,我建议您阅读此快速文章,以清楚地理解哈希键和哈希+范围键之间的区别:
DynamoDB: When to use what PK type?
您的案例是典型的时序数据场景,随着时间的流逝,记录变得过时了。您需要注意两个主要因素:
确保您的表具有均匀的访问模式
如果将所有通知放在一个表中,并且更频繁地访问最近的通知,则配置的吞吐量将无法有效使用。
您应该将访问量最大的项目分组在一个表中,以便可以针对所需访问权限适当调整预配置的吞吐量。此外,请确保正确定义Hash Key that will allow even distribution of your data across multiple partitions。
以最有效的方式(努力,性能和成本合理)删除过时的数据
该文档建议将数据划分到不同的表中,以便一旦记录过时就可以删除或备份整个表(请参阅下面的更多详细信息)。
这是文档中介绍与时间序列数据相关的最佳做法的部分:
了解时间序列数据的访问模式
对于您创建的每个表,您指定吞吐量
要求。 DynamoDB分配和保留资源来处理您的
持续低延迟的吞吐量要求。设计时
您的应用程序和表,您应该考虑应用程序的
访问模式以最有效地利用表格的
资源。
假设您设计了一个表格来跟踪您网站上的客户行为,
例如他们点击的网址。您可以使用哈希和
具有客户ID作为哈希属性的范围类型主键,以及
日期/时间作为范围属性。在此应用程序中,客户数据
随着时间的推移无限增长;但是,应用程序可能会显示
表格中所有项目的访问方式不均匀
最新的客户数据更相关,您的应用程序可能
随着时间的流逝,更频繁地访问最新项目
访问较少,最终很少访问较旧的项目。如果
这是一种已知的访问模式,您可以考虑一下
设计表架构时。而不是将所有项目存储在
一个表,则可以使用多个表来存储这些项目。对于
例如,您可以创建表来存储每月或每周数据。对于
该表存储最近一个月或一周中的数据,其中数据
访问速率高,要求更高的吞吐量并用于表存储
较旧的数据,您可以降低吞吐量并节省资源。
您可以通过将“热门”项目存储在一个表中来节省资源
更高的吞吐量设置,并在另一个表中使用“冷”项
较低的吞吐量设置。您可以删除旧项目,只需删除
桌子。您可以选择将这些表备份到其他存储
诸如Amazon Simple Storage Service(Amazon S3)之类的选项。删除
整个表格比删除项目效率更高
一对一,这实际上使写入吞吐量加倍
与删除操作一样多的删除操作。
资源:
http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/GuidelinesForTables.html#GuidelinesForTables.TimeSeriesDataAccessPatterns
例如,您可以按月对表进行细分:
Notifications_April, Notifications_May, etc
Query
操作并仅使用具有
Hash Key
的
UserId
(
Range Key
)进行查询,以按
Timestamp
(日期和时间)对通知进行排序。
Hash Key: UserId
Range Key: Timestamp
Hash Key
,使其不仅具有
UserId
,而且具有在查询之前可以计算以确保您的
Hash Key
甚至允许您访问数据的连接信息。例如,如果来自特定用户的通知比其他用户更受访问,则可以开始具有热分区...在
Hash Key
中包含其他信息可以减轻这种风险。
Global Secondary Index
作为稀疏索引,以
UserId
作为
Hash Key
,以
Unread
作为
Range Key
。
Index Name: Notifications_April_Unread
Hash Key: UserId
Range Key : Unuread
GetItem
或
BatchGetItem
表。
关于amazon-web-services - DynamoDB中的索引通知表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29951270/
这几天我一直在努力。我一直在自学 CSS,所以对菜鸟好一点。我正在创建一个推荐 slider 。推荐以 3 个 block 显示。我希望前 2 个下降,第 3 个上升。但是当 slider 激活时,无
我最近开始学习 Nodejs,现在我很困惑我的网络应用程序使用什么,html 还是 ejs (Express)。 Ejs 使用 Express 模块,而 .html 使用 HTML 模块。我的第一个问
假设我们有一个 PostgreSQL 表contacts,每条记录都有一堆带标签的电子邮件地址(标签和电子邮件对)——其中一个是“主要”。 存储方式如下: id 主键 电子邮件 文本 email_la
我成功为一种新的tesseract语言编写了traineddata文件,但是当我完成时,我继续收到以下错误: index >= 0 && index = 0 && 索引 < size_used_ :E
这个问题已经有答案了: How to deal with SettingWithCopyWarning in Pandas (21 个回答) 已关闭 4 年前。 假设我有一个像这样的数据框,第一列“密
如果我有一个位置或行/列同时用于 A 和 B 位置,请检查 B 是否与 A 成对角线? 1 2 3 4 5 6 7 8 9 例如,我如何检查 5 是否与 7 成对角线? 此外,如果我检查 4 是
MongoDB:索引 一、 创建索引 默认情况下,集合中的_id字段就是索引,我们可以通过getIndexes()方法来查看一个集合中的索引 > db.user.getIndexes() [ { "v
一、索引介绍 索引是一种用来快速查询数据的数据结构。 B+Tree就是一种常用的数据库索引数据结构,MongoDB采用B+Tree 做索引,索引创建在colletions上。 MongoDB不使用索引
我无法决定索引。 就像我有下面的查询需要太多时间来执行: select count(rn.NODE_ID) as Count, rnl.[ISO_COUNTRY_CODE] as Cou
我有这些表: CREATE TABLE `cstat` ( `id_cstat` bigint(20) NOT NULL, `lang_code` varchar(3) NOT NULL,
我正在尝试找到一种方法来提高包含 IP 范围的 mysql 表的性能(在高峰时段每秒最多有 500 个 SELECT 查询(!),所以我有点担心)。 我有一个这种结构的表: id smallint(
jquery index() 似乎无法识别元素之一,总是说“无法读取未定义的属性‘长度’”这是我的代码。mnumber 是导致问题的原因。我需要 number 和 mnumber 才能跟踪使用鼠标,并
我们有一个包含近 4000 万条记录的 MongoDB 集合。该集合的当前大小为 5GB。此集合中存储的数据包含以下字段: _id: "MongoDB id" userid: "user id" (i
文档说:如果你有多个字段的复合索引,你可以用它来查询字段的开始子集。所以如果你有一个索引一个,乙,丙你可以用它查询一种一个,乙a,b,c 我的问题是,如果我有一个像这样的复合索引一个,乙,丙我可以查询
我正在使用 $('#list option').each(function(){ //do stuff }); 循环列表中的选项。我想知道如何获取当前循环的索引? 因为我不想让 var i = 0;循
MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度。 打个比方,如果合理的设计且使用索引的MySQL是一辆兰博基尼的话,那么没有设计和使用索引的MySQL
SQLite 索引(Index) 索引(Index)是一种特殊的查找表,数据库搜索引擎用来加快数据检索。简单地说,索引是一个指向表中数据的指针。一个数据库中的索引与一本书后边的索引是非常相似的。
我是 RavenDB 的新手。我正在尝试使用多 map 索引功能,但我不确定这是否是解决我的问题的最佳方法。所以我有三个文件:Unit、Car、People。 汽车文件看起来像这样: { Id: "
我有以下数据,我想根据范围在另一个表中建立索引 我想要实现的是,例如,如果三星的销售额为 2500,则折扣为 2%,低于 3000 且高于 1000 我知道它可以通过索引来完成,与多个数组匹配,然后指
我正在检查并删除 SQL 数据库中的重复和冗余索引。 所以如果我有两个相同的索引,我会删除。 例如,如果我删除了重叠的索引... 索引1:品牌、型号 指标二:品牌、型号、价格 我删除索引 1。 相同顺
我是一名优秀的程序员,十分优秀!