python - Python 中的 DynamoDB 查询(使用 GroupBy 进行计数)-6ren

python - Python 中的 DynamoDB 查询(使用 GroupBy 进行计数)

转载作者：行者123 更新时间：2023-12-01 03:22:38

24

4

这可能是微不足道的，但我加载了一个本地 DynamoDB 实例，其中包含我聚合的 30GB 的 Twitter 数据。

主键是 id(来自 Tweet JSON 的tweet_id)，我还存储日期/文本/用户名/地理代码。

我基本上对提到的两个主题感兴趣(比如说“蜜蜂”和“酒”)。 我想按天对每个州进行计数。

所以到最后，我应该知道每个州在某一天被提及的次数。我想最好将其导出为 CSV 或其他格式以供以后分析。

我在执行此操作时遇到的一些问题...

首先，地理编码信息是[纬度，经度]的元组，因此对于每个条目，我需要将其映射到一个州。我能做到的。

其次，最有效的方法是遍历每个条目并手动检查它是否包含任一关键字的提及，然后为每个条目建立一个映射日期/位置/计数的字典？

编辑:

由于我花了 20 个小时才将所有数据加载到表中，因此我不想删除并重新创建它。也许我应该创建一个全局二级索引(？)并使用它来搜索查询中的其他字段？这样我就不必扫描所有内容。这是正确的道路吗？

编辑2:

好吧，由于该表位于我的本地计算机上，我应该可以只使用像扫描这样昂贵的操作，对吗？

所以如果我做了这样的事情:

query = table.scan(
     FilterExpression=Attr('text').contains("Booze"),
     ProjectionExpression='id, text, date, geo', 
     Limit=100)

对每个关键字进行一次扫描，然后我就可以浏览生成的过滤列表并获取给定日期每个州每个主题的提及次数，对吧？

编辑3:

response = table.scan(
   FilterExpression=Attr('text').contains("Booze"),
   Limit=100)
//do something with this set
while 'LastEvaluatedKey' in response:
   response = table.scan(
      FilterExpression=Attr('text').contains("Booze"),
      Limit=100, 
      ExclusiveStartKey=response['LastEvaluatedKey']
   )
   //do something with each batch of 100 entries

对于这两个关键字来说都是类似的。这样我就能够浏览生成的过滤集并执行我想要的操作(在本例中，找出位置和日期并使用该信息创建最终数据集)。对吗？

编辑4

如果我添加:

ProjectionExpression='date, location, user, text'

在扫描请求中，我收到一条错误消息“botocore.exceptions.ClientError:调用扫描操作时发生错误 (ValidationException):无效的 ProjectionExpression:属性名称是保留关键字；保留关键字:位置”。我该如何解决这个问题？

NVM 我明白了。答案是查看 ExpressionAttributeNames(请参阅:http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/ExpressionPlaceholders.html)

最佳答案

是的，扫描表格中的“Booze”并计算结果中的项目应该可以得到总数。请注意，您需要进行递归扫描，直到 LastEvaluatedKey 为 null。

引用exclusive start key也是如此。

Scan

编辑:-

是的，代码看起来不错。需要注意的一件事是，结果集并不总是包含 100 个项目。请引用下面的 LIMIT 定义(与 SQL 数据库不同)。

Limit — (Integer) The maximum number of items to evaluate (not necessarily the number of matching items). If DynamoDB processes the number of items up to the limit while processing the results, it stops the operation and returns the matching values up to that point, and a key in LastEvaluatedKey to apply in a subsequent operation, so that you can pick up where you left off. Also, if the processed data set size exceeds 1 MB before DynamoDB reaches this limit, it stops the operation and returns the matching values up to the limit, and a key in LastEvaluatedKey to apply in a subsequent operation to continue the operation. For more information, see Query and Scan in the Amazon DynamoDB Developer Guide.

关于python - Python 中的 DynamoDB 查询(使用 GroupBy 进行计数)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41780500/

24

4

0

文章推荐： python - Google Cloud Endpoints V2 多类 API 错误 App Engine 标准

文章推荐： javascript - 使用 JavaScript 定位 HTML 小部件中的动态元素

文章推荐： javascript - 在 javascript 中设置属性时未捕获类型错误

php 计数 vs sql 计数 vs 计数字段？演出
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
javascript 计数
我有点卡在 JavaScript 逻辑上来完成这个任务。基本上如果我给出一个数字(比如 30) 我想在两边都显示 5。所以 25 26 27 28 29 30 31 32 33 34 35 这部
你能发现这段代码中的逻辑错误吗？计数
我编写的程序有问题。我无法获得输入字符串的正确字数，但我获得了正确的最长字符数。我不知道为什么，但这是我的代码。我正在做的是将一个字符串传递给一个函数，该函数将字符串中的所有字母大写。然后，该函数逐个
Android错误循环 "for"计数
我有功能 public ArrayList vyberNahodnaPismena() { String[] seznamPismen = {"A", "Á", "B", "C", "Č",
postgresql 计数
这可以在 PGSQL 中完成吗？我有一个我创建的 View ，其中主机名、ip 和数据中心来自一个表，ifdesc 和 if stats 来自另一个表。 View 输出如下所示: hostname |
mysql查询左连接+计数
我想要一组来自订单文件的数据，这些数据可以为我提供客户编号、订单编号、产品、数量、价格以及每个订单的订单详细信息文件中的行数。我在最后一部分遇到问题。 Select Header.CustNo, He
sql查询问题/计数
我有属于街道的房子。一个用户可以买几套房子。我如何知道用户是否拥有整条街道？ street table with columns (id/name) house table with columns
Mongodb如何聚合不同值的出现次数(计数)？
我有一套有 200 万个主题标签。然而，只有大约 200k 是不同的值。我想知道哪些主题标签在我的数据中重复得更多。我用它来查找每个主题标签在我的数据集上重复了多少次: db.hashtags.ag
Mongodb同时在多个字段上聚合(计数)
我有如下文件: { "_id" : "someuniqueeventid", "event" : "event_type_1", "date" : ISODate("2014-
使用多重连接的 SQL 计数
我有以下三个相互关联的表: 主持人(有多个 session ) session (有多个进程) 过程表结构如下: 主机表 - id, name session 表 - id, host_id, na
每个类别的 SQL 计数
我需要根据 2 个字段对行进行计数以进行分组。动物(一) id group_id strain_id death_date death_cause status --
从加入组中的 LINQ 计数
我有一个 LINQ 语句，我正在努力改正，所以可能这一切都错了。我的目标是查询一个表并加入另一个表以获取计数。地点标识、显示 ProfilePlaces ID、PlaceID、通话、聆听基本上P
Excel:计数 "Not equal to"
我无法编写 Countifs 来完成我想要的。我每个月都会运行一份 claim 报告，其中包含大量按列组织的数据，并每月将其导出到 Excel 中。在一个单独的选项卡上，我有引用此数据复制到的选项卡的
sql - 根据列值对行进行排名/计数
我有一些数据采用此 sqlfilddle 中描述的格式:http://sqlfiddle.com/#!4/b9cdf/2 基本上，一个包含用户 ID 和事件发生时间的表。我想做的是根据用户发生事件的时
SQL 计数 where 子句
我有以下 SQL 语句: SELECT [l.LeagueId] AS LeagueId, [l.LeagueName] AS NAME, [lp.PositionId] FROM
SQL 平均(计数(*))？
我试图找出一个值在列中出现的平均次数，根据另一列对其进行分组，然后对其进行计算。我有 3 张 table ，有点像这样 DVD ID | NAME 1 | 1 2 | 1 3
SQL - 用 Where 计数
我有一个非常简单的 SQL 问题。我有一个包含以下列的数据库表: 零件号销售类型(为简单起见，称之为销售类型 1、2、3、4、5) 我希望编写一个包含以下三列的查询: 零件号 Sales Type
包含零值的 SQL 计数
我创建了以下存储过程，用于计算选定位置的特定范围之间每天的记录数: [dbo].[getRecordsCount] @LOCATION as INT, @BEGIN as datetime, @END
日期列的 SQL 计数
我有一个包含一组列的表，其中一个是日期列。我需要计算该列的值引用同一个月的次数。如果一个月内，该计数的总和超过 3，则返回。例如: ____________________ | DATE |
XML 计数 TXT
看XXX数据如下: lala XXX = EL String [XXX] | TXT String | MMS String 为此，XXX数据yppz是由 lala

首页

博学

6Ren·AI

商城

python - Python 中的 DynamoDB 查询(使用 GroupBy 进行计数)