- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
长话短说
我有一张表, 这个月有大约 200 万次 WRITE 和 0 次 READ。每个月的第一天,我需要读取上个月写入的所有行并生成 CSV + 统计信息。
在这种情况下如何使用 DynamoDB?如何选择READ吞吐量?
详细说明
我有一个记录客户端请求的应用程序。它有大约200个客户。客户需要在每个月的第一天收到一个 CSV,其中包含他们提出的所有请求。他们还需要收费,为此我们需要根据他们提出的请求计算一些统计数据,按请求类型分组。
所以在月底,客户会收到如下报告:
我已经找到了两个解决方案,但我仍然相信其中任何一个。
第一个解决方案:好的,每个月的最后一天我都会增加 READ 吞吐量容量,然后运行 map reduce 作业。工作完成后,我将容量降低回原始值。
缺点:不是完全自动化,作业开始时 DynamoDB 容量不可用的风险。
第二个解决方案:我可以将 CSV 和统计数据的生成分解为每天或每小时的小工作。我可以将部分 CSV 存储在 S3 上,并且在每个月的第一天我可以加入这些文件并生成一个新文件。生成统计数据会容易得多,只需从每天/每小时的统计数据中得出一些计算。
缺点:我觉得我正在把一些简单的东西变成复杂的东西。
你有更好的解决方案吗?如果不是,您会选择什么解决方案?为什么?
最佳答案
我自己之前也曾在类似的地方使用过,现在推荐给你,来处理原始数据:
在报告时间尽可能少做。
这种方法是完全可扩展的——增量频率可以是:
它还可以根据需要重新运行过去几个月的报告,因为报告生成时间应该非常短。
在我的示例中,我每小时将非规范化、预处理(财务计算)数据发送到数据仓库,然后报告只涉及一个非常基本(且快速)的 SQL 查询。
这有一个额外的好处,即可以将生产数据库服务器上的负载分散到许多小块上,而不是每周一次在开票时使其崩溃(每周生产 30000 个开票)。
关于database - 发电机 : How to distribute workload over the month?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27348604/
我正在处理一些遗留代码,其中 java.util.Calendar 用于与日期相关的计算(基本上是添加月份)。现在我想在代码中用 java.time.LocalDate 替换 java.util.Ca
我刚刚在我正在学习的类(class)中开始使用 R,到目前为止我所做的是制作一个加载文件的脚本。 如果重要的话,我正在使用 Rstudio 1.0.44 使用 Ubuntu 14.04 运行 R。 我
我正在按月查询在 Laravel 中创建的用户,这是我的代码 $devlist = DB::table("users") ->select("id" ,DB::ra
C++20 计时类型/值之间有什么区别 month{7}和 months{7} ?有两个如此相似的名字是不是很困惑? 最佳答案 是的,同时拥有 month 可能会令人困惑。和 months第一次遇到这
我有一个数据库,其中包含我的用户完成的每个操作,并带有时间戳,如下所示: 用户名 ; Action ; 创建日期 我想评估一段时间内活跃用户的数量。我可以看到每周活跃的用户数 (count (dist
我在我的 Python 脚本中使用了 parsedatetime 库,似乎“上个月”有效,“下个月”但“本月”无效。 我错过了什么?有没有办法获取当月的第一天? 编辑:抱歉,这是一些代码: impor
我发现的大部分信息都不在 python>pandas>dataframe 中,因此是这个问题。 我想将 1 到 12 之间的整数转换为缩写的月份名称。 我有一个 df,它看起来像: client
在用户单击“下个月”或“上个月”后,我需要使用自定义 CSS 重新填充日期选择器。我正在点击 onChangeMonthYear 事件,但不知道用户要去哪条路(下个月或上个月)。有什么简单的内置东西可
我正在尝试计算一个月内产品的总销售额,但我希望它包括任何“空”月份(没有销售额)并且只选择最近的 12 个月。 到目前为止,这是我的代码。 declare @ProductNo int set @Pr
我有一个独特的问题,我根本无法解决。 所以我在 SQL Server 2005 中,我得到了以下要处理的数据: FISCAL_YEAR_START_MONTH INT(财政年度的第一个月) COUNT
我正在进行的一个项目需要获取过去 12 个月中每个月的平均发票总额。我可以通过执行 12 个查询(每月 1 个)轻松获得我需要的内容,但它非常丑陋,我最终得到 12 个唯一变量(id 而不是有一个循环
我希望用更好的不太详细的过程替换以下函数,用于从字符串确定数字月份值。有谁知道是否有可用于此目的的日期/日期时间函数?我没有注意到任何一个可以满足我的需求。 代码中的文本字符串正是我接收它们的方式。
我正在尝试获取过去 12 个月(包括当月)按月分组的记录数。不是从今年年初开始。 我有一个表 EVENTS 和一个字段 WODATE。我能做到 aFDQuery.Connection := Tra
我正在使用moment.js在 angularjs 应用程序中进行日期转换。我要打印Month number作为Month name 。我已经尝试过如下, {{item.ReviewMonth | d
我想通过 JPA 从 Oracle 数据库中选择实体,方法如下: Calendar cal = Calendar.getInstance(); cal.setTime(anOtherDate); Qu
我希望用一个更好的更简单的过程来替换以下函数,以便从字符串中确定数字月份值。有谁知道是否有可用于此的 Date/DateTime 函数?我没有注意到可以满足我的需求的。 代码中的文本字符串正是我接收它
我正在尝试获取过去 12 个月(包括当月)按月分组的记录数。不是从今年年初开始。 我有一个表 EVENTS 和一个字段 WODATE。我能做到 aFDQuery.Connection := Tra
我读到“将日期字符串转换为mysql日期时间字段”:但这对我没有帮助 所以我想做的是将dat文件读入mysql中的空表。 table CLIMBED(TRIP_ID int,PEAK VARCHAR(
我有这样的查询: SELECT EXTRACT(MONTH FROM d.mydate) AS synmonth, SUM(apcp) AS apcptot FROM t_synop_data2 d
一些需要更改 df header 的 Django 格式问题。 测试数据: Test_Data = [ ('Year_Month', ['Done_RFQ','Not_
我是一名优秀的程序员,十分优秀!