- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我按照 this blog post. 中的描述设置了 Elasticsearch 服务和 DynamoDb 流现在我需要将预先存在的数据从 DynamoDB 添加到 Elasticsearch。
我看到文章的“索引预先存在的内容”部分,但我不知道如何处理该 Python 代码,在哪里执行它。
在这种情况下添加预先存在的数据的最佳选择是什么?
最佳答案
将现有项目填充到 elasticsearch 并不简单,因为 dynamodb 流适用于项目更改而不是现有记录,
以下是一些有利有弊的方法
从dynamodb中扫描所有存在的项目并发送到elasticsearch
我们可以扫描所有现有项目并运行托管在 ec2 机器上的 python 代码以将数据发送到 es。
优点:
一个。简单的解决方案,没有太多要求。
缺点:
一个。无法在 lambda 函数上运行,因为如果记录数太多,作业可能会超时。
这种方法更像是一次性的事情,不能用于增量更改,(假设我们希望在 dynamodb 数据更改时不断更新 es。)
使用 dynamodb 流
我们可以启用 dynamodb 流并按照说明构建管道 here .现在我们可以更新现有项目的一些标志,以便所有记录都流经管道并且数据进入 es。
优点:
一个。该管道可用于增量式 dynamodb 更改。
没有代码重复或一次性努力,每次我们需要更新 es 中的一项时,我们更新该项目并在 es 中建立索引。
没有多余的、未经测试的一次性代码。 (软件世界中维护代码的巨大问题。)
缺点:
一个。更改产品数据可能是一件危险的事情,根据用例可能不允许。
这是对上述方法的轻微修改
我们可以创建一个临时表并在临时表上启用流,而不是更改 prod 表中的项目。利用第二种方法中提到的管道。然后将 prod 表中的项目复制到临时表中,数据将流经现有管道并在 ES 中建立索引。
优点:
一个。不需要更改 Prod 数据,此管道也可用于增量更改。
与方法 2 相同。
缺点:
一个。将数据从一个表复制到另一个表可能会花费很多时间,具体取决于数据大小。
将数据从一个表复制到另一个是一次性脚本,因此存在可维护性问题。
请随时在评论中编辑或建议其他方法。
关于elasticsearch - 如何将预先存在的数据从 DynamoDB 添加到 Elasticsearch?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46112158/
我正在使用 Boto3 和 Python 开发 Dyanamodb。我发现的问题之一是我们应该何时使用 dynamodb.client、dynamodb.resource 和 dynamodb.Tab
DynamoDB documentation描述了表分区原则上是如何工作的,但它对细节(即数字)非常了解。 DynamoDB 表分区究竟如何以及何时发生? 最佳答案 我找到了这个 presentati
我在 DynamoDB 表中有一个项目。该项目看起来像这样: { data: [ 1, 2, 3, 4, 5, 6 ] more_data: [ 2, 3, 4, 5, 6, 7 ] } 使用
我的 DynamoDB 表中的一个属性是一个名为 REQUEST_IDS 的列表,我想在更新项目之前检查该列表的长度以查看它是否满足条件(小于 10) .如何在 nodejs 的 ConditionE
我正在使用 Amazon Dynamodb,但没有太多经验。我有这样的价格表: 编号 |插入日期 |产品名称 |店名 |价格 相同的商店名称和产品名称可以有不同的值(价格和插入日期可能不同)。例如 i
我对 DynamoDB 上查询/扫描的限制有疑问。 我的表有 1000 条记录,对所有记录的查询返回 50 个值,但是如果我将 Limit 设置为 5,这并不意味着查询将返回前 5 个值,它只是说查询
我需要在 jsp 上显示最大计数为 10 的搜索结果,并且它应该有一个分页来作为分页功能来回遍历。 Dynamodb 有一个 最后评估 key ,但返回上一页无济于事,尽管我可以通过 移动到下一个结果
我是 CouchDB 的忠实粉丝,并且完全爱上了每个文档发出不止一次的 map 函数。我想知道在 DynamoDB 中是否可以通过使用字符串或数字集类型作为散列和范围主键的一部分(作为散列或范围属性)
我目前正在使用 DynamoDB。如果该记录的日期早于新记录日期字段,我想使用条件写入来更新记录。 有没有办法比较条件写入的 DateTime 类型?还是目前仅适用于整数、字符串和流? 谢谢。 最佳答
如何对 dynamoDB 表建模以构建一个标签系统,其中产品可以分配多个标签,并且我们应该能够过滤具有特定标签或标签集合的产品集,并获取分配给给定标签的所有标签产品? 我考虑过有一张 table :
我试图更好地理解在 AWS DynamoDB 中使用邻接列表模式进行多对多 (m:n) 关系设计。 在此处查看 AWS 文档:https://docs.aws.amazon.com/amazondyn
我怀疑 DynamoDB 中的这一说法是否属实或我的理解不正确。它说, ProvisionedThroughputExceededException 消息:您超出了表或一个或多个全局二级索引的最大允许
考虑一个 DynamoDB 表,它由一个主键和两个描述开始日期和结束日期的属性组成。如何在不扫描整个表的情况下查询时间范围是否与表中的时间范围重叠? 例子: 发电机表有两条记录 PK Start
我有一个 DynamoDB 表,其中包含将由许多应用程序读取的键值对。在启动时,每个应用程序将读取整个表并将其缓存在内存中。 我试图解决的问题是,如果 DynamoDB 表中的一个或多个项目已被修改,
我正在有条件地更新 dynamoDB 记录(仅当记录具有其属性之一的特定值时)。无论是否成功更新(条件是否满足),我都想取回记录。 docClient.update(params, function(
我目前正在对 DynamoDB 进行批量加载并将我们的数据项划分为批处理单元: 根据限制文件: https://docs.aws.amazon.com/amazondynamodb/latest/AP
我正在跟踪dynamodb的Python教程,以在端口8000上设置本地dynomodb http://docs.aws.amazon.com/amazondynamodb/latest/gettin
我正在创建一个 DynamoDB 表来保存与单个对象关联的注释。 评论在特定时间发布到对象,我使用发布的时间作为范围,因此评论可以按时间降序排序。我有发布评论的用户的 userId 的全局二级索引,这
我正在运行一个简单的 api,它在每次调用时从 dynamodb 表中获取一个项目,我将自动缩放设置为最小值 25 和最大值 10 000。 但是,如果我使用 wrk 或 hey 之类的工具发送 15
我在模型中有一个字段已声明为字符串,如下所示: App.Student= DS.Model.extend({ name: DS.attr('string'), address1: DS.attr('s
我是一名优秀的程序员,十分优秀!