performance - 扫描 DynamoDB 表或查询二级全局索引或本地索引(什么是最佳解决方案)-6ren

performance - 扫描 DynamoDB 表或查询二级全局索引或本地索引(什么是最佳解决方案)

转载作者：行者123 更新时间：2023-12-02 04:36:18

25

4

我有一个名为“Users”的 AWS DynamoDB 表，其散列键/主键是“UserID”，其中包含电子邮件。它有两个属性，第一个称为“Daily Points”，第二个称为“TimeSpendInTheApp”。现在我需要在表上运行查询或扫描，这将给我得分最高的前 50 名用户和在应用程序中花费最多时间的前 50 名用户。现在这个查询将每天仅由 cron aws lambda 执行一次。我正在尝试为此查询或扫描找到最佳解决方案。对我来说，成本比速度/效率更重要。由于在点上维护辅助全局索引或本地索引可能是代价高昂的操作，因为我必须为这些索引分配读取和写入单元，我想避免这种情况。 “用户”表最多有 100,000 到 150,000 条记录，平均有 50,000 条记录。我最好的选择是什么？请提出建议。

我在想，我的第一个选择是，我可以在 Filter Expression 上扫描整个表以查找超过某些点(例如 5000)的记录，在扫描之后，如果找到 50 条或超过 50 条记录，则只需对值并取前 50 条记录。如果此扫描没有返回结果或返回的结果非常少，则减小 Filter Expression 值(例如 3000)，然后再次执行相同的扫描操作。如果 Filter Expression 值(例如 2500)返回太多记录，如 5000 或更多，则减少 Filter Expression 值。这甚至可能吗，我想它还需要处理分页。在有 50,000 条记录的表上扫描是否可取？

任何意见或建议都会有所帮助。提前致谢。

最佳答案

首先，为上述用例创建索引并没有简化流程，因为它没有聚合或排序的解决方案。

我会将数据导出到 HIVE 并运行查询，而不是编写代码来确定结果，尤其是因为它将是每天只执行一次的批处理。

如下所示:-

创建 Hive 表:-

CREATE EXTERNAL TABLE hive_users(userId string, dailyPoints bigint, timeSpendInTheApp bigint) 
STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler'
TBLPROPERTIES ("dynamodb.table.name" = "Users",
"dynamodb.column.mapping" = "userId:UserID,dailyPoints:Daily_Points,timeSpendInTheApp:TimeSpendInTheApp");

查询:-

SELECT dailyPoints, userId from hive_users sort by dailyPoints desc;
SELECT timeSpendInTheApp, userId from hive_users sort by timeSpendInTheApp desc;

Hive Reference

关于performance - 扫描 DynamoDB 表或查询二级全局索引或本地索引(什么是最佳解决方案)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42333929/

25

4

0

文章推荐： java - 并发环境下的Ehcache ReentrantReadWriteLock

文章推荐： laravel - 从数据库配置 Laravel 调度器的时间

文章推荐： email - 如何检查 Siebel 是否已成功发送电子邮件？

python - 什么时候使用 dynamodb.client、dynamodb.resource 和 dynamodb.Table？
我正在使用 Boto3 和 Python 开发 Dyanamodb。我发现的问题之一是我们应该何时使用 dynamodb.client、dynamodb.resource 和 dynamodb.Tab
amazon-dynamodb - DynamoDB 如何分区表？
DynamoDB documentation描述了表分区原则上是如何工作的，但它对细节(即数字)非常了解。 DynamoDB 表分区究竟如何以及何时发生？最佳答案我找到了这个 presentati
amazon-dynamodb - DynamoDB - 读取一个项目并返回一个数组大小
我在 DynamoDB 表中有一个项目。该项目看起来像这样: { data: [ 1, 2, 3, 4, 5, 6 ] more_data: [ 2, 3, 4, 5, 6, 7 ] } 使用
amazon-dynamodb - DynamoDB 通过检查属性值长度进行条件更新
我的 DynamoDB 表中的一个属性是一个名为 REQUEST_IDS 的列表，我想在更新项目之前检查该列表的长度以查看它是否满足条件(小于 10) .如何在 nodejs 的 ConditionE
amazon-dynamodb - dynamodb 从表中获取最早插入的不同值
我正在使用 Amazon Dynamodb，但没有太多经验。我有这样的价格表: 编号 |插入日期 |产品名称 |店名 |价格相同的商店名称和产品名称可以有不同的值(价格和插入日期可能不同)。例如 i
amazon-dynamodb - DynamoDB 查询限制
我对 DynamoDB 上查询/扫描的限制有疑问。我的表有 1000 条记录，对所有记录的查询返回 50 个值，但是如果我将 Limit 设置为 5，这并不意味着查询将返回前 5 个值，它只是说查询
amazon-dynamodb - DynamoDB 中的分页
我需要在 jsp 上显示最大计数为 10 的搜索结果，并且它应该有一个分页来作为分页功能来回遍历。 Dynamodb 有一个最后评估 key ，但返回上一页无济于事，尽管我可以通过移动到下一个结果
amazon-dynamodb - DynamoDB 是否支持在表的主键中使用其中一种数据类型？
我是 CouchDB 的忠实粉丝，并且完全爱上了每个文档发出不止一次的 map 函数。我想知道在 DynamoDB 中是否可以通过使用字符串或数字集类型作为散列和范围主键的一部分(作为散列或范围属性)
amazon-dynamodb - DynamoDB 中条件写入的日期时间比较
我目前正在使用 DynamoDB。如果该记录的日期早于新记录日期字段，我想使用条件写入来更新记录。有没有办法比较条件写入的 DateTime 类型？还是目前仅适用于整数、字符串和流？谢谢。最佳答
amazon-dynamodb - DynamoDb 中标记系统的数据模型
如何对 dynamoDB 表建模以构建一个标签系统，其中产品可以分配多个标签，并且我们应该能够过滤具有特定标签或标签集合的产品集，并获取分配给给定标签的所有标签产品？我考虑过有一张 table :
amazon-dynamodb - DynamoDB 邻接列表模式
我试图更好地理解在 AWS DynamoDB 中使用邻接列表模式进行多对多 (m:n) 关系设计。在此处查看 AWS 文档:https://docs.aws.amazon.com/amazondyn
amazon-dynamodb - DynamoDB 吞吐量超出异常错误
我怀疑 DynamoDB 中的这一说法是否属实或我的理解不正确。它说， ProvisionedThroughputExceededException 消息:您超出了表或一个或多个全局二级索引的最大允许
amazon-dynamodb - DynamoDB 如何查询重叠的时间范围
考虑一个 DynamoDB 表，它由一个主键和两个描述开始日期和结束日期的属性组成。如何在不扫描整个表的情况下查询时间范围是否与表中的时间范围重叠？例子: 发电机表有两条记录 PK Start
amazon-dynamodb - DynamoDB 流是这个用例的正确选择吗？
我有一个 DynamoDB 表，其中包含将由许多应用程序读取的键值对。在启动时，每个应用程序将读取整个表并将其缓存在内存中。我试图解决的问题是，如果 DynamoDB 表中的一个或多个项目已被修改，
amazon-dynamodb - dynamoDB 记录更新后如何返回项目
我正在有条件地更新 dynamoDB 记录(仅当记录具有其属性之一的特定值时)。无论是否成功更新(条件是否满足)，我都想取回记录。 docClient.update(params, function(
amazon-dynamodb - DynamoDB 批量写入项目限制
我目前正在对 DynamoDB 进行批量加载并将我们的数据项划分为批处理单元: 根据限制文件: https://docs.aws.amazon.com/amazondynamodb/latest/AP
amazon-dynamodb - Dynamodb create_table调用失败
我正在跟踪dynamodb的Python教程，以在端口8000上设置本地dynomodb http://docs.aws.amazon.com/amazondynamodb/latest/gettin
amazon-dynamodb - DynamoDB 跨主索引和全局二级索引的键唯一性
我正在创建一个 DynamoDB 表来保存与单个对象关联的注释。评论在特定时间发布到对象，我使用发布的时间作为范围，因此评论可以按时间降序排序。我有发布评论的用户的 userId 的全局二级索引，这
amazon-dynamodb - Dynamodb 自动缩放的速度不够快
我正在运行一个简单的 api，它在每次调用时从 dynamodb 表中获取一个项目，我将自动缩放设置为最小值 25 和最大值 10 000。但是，如果我使用 wrk 或 hey 之类的工具发送 15
amazon-dynamodb - Dynamodb +在putItem请求中如何传递空值？
我在模型中有一个字段已声明为字符串，如下所示: App.Student= DS.Model.extend({ name: DS.attr('string'), address1: DS.attr('s

首页

博学

6Ren·AI

商城

performance - 扫描 DynamoDB 表或查询二级全局索引或本地索引(什么是最佳解决方案)