elasticsearch - 如何将预先存在的数据从 DynamoDB 添加到 Elasticsearch？-6ren

elasticsearch - 如何将预先存在的数据从 DynamoDB 添加到 Elasticsearch？

转载作者：行者123 更新时间：2023-11-29 02:56:02

25

4

我按照 this blog post. 中的描述设置了 Elasticsearch 服务和 DynamoDb 流现在我需要将预先存在的数据从 DynamoDB 添加到 Elasticsearch。

我看到文章的“索引预先存在的内容”部分，但我不知道如何处理该 Python 代码，在哪里执行它。

在这种情况下添加预先存在的数据的最佳选择是什么？

最佳答案

将现有项目填充到 elasticsearch 并不简单，因为 dynamodb 流适用于项目更改而不是现有记录，

以下是一些有利有弊的方法

从dynamodb中扫描所有存在的项目并发送到elasticsearch
我们可以扫描所有现有项目并运行托管在 ec2 机器上的 python 代码以将数据发送到 es。
优点:
一个。简单的解决方案，没有太多要求。
缺点:
一个。无法在 lambda 函数上运行，因为如果记录数太多，作业可能会超时。
这种方法更像是一次性的事情，不能用于增量更改，(假设我们希望在 dynamodb 数据更改时不断更新 es。)
使用 dynamodb 流
我们可以启用 dynamodb 流并按照说明构建管道 here .现在我们可以更新现有项目的一些标志，以便所有记录都流经管道并且数据进入 es。
优点:
一个。该管道可用于增量式 dynamodb 更改。
没有代码重复或一次性努力，每次我们需要更新 es 中的一项时，我们更新该项目并在 es 中建立索引。
没有多余的、未经测试的一次性代码。 (软件世界中维护代码的巨大问题。)
缺点:
一个。更改产品数据可能是一件危险的事情，根据用例可能不允许。
这是对上述方法的轻微修改
我们可以创建一个临时表并在临时表上启用流，而不是更改 prod 表中的项目。利用第二种方法中提到的管道。然后将 prod 表中的项目复制到临时表中，数据将流经现有管道并在 ES 中建立索引。
优点:
一个。不需要更改 Prod 数据，此管道也可用于增量更改。
与方法 2 相同。
缺点:
一个。将数据从一个表复制到另一个表可能会花费很多时间，具体取决于数据大小。
将数据从一个表复制到另一个是一次性脚本，因此存在可维护性问题。

请随时在评论中编辑或建议其他方法。

关于elasticsearch - 如何将预先存在的数据从 DynamoDB 添加到 Elasticsearch？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46112158/

25

4

0

文章推荐： Elasticsearch 5.5.0 : Finding relevant documents

文章推荐： mysql - 在这个例子中写一个重叠时间的查询

文章推荐： elasticsearch - 使用父子关系重新索引 Elasticsearch 索引

文章推荐： elasticsearch - elasticsearch的日志格式是什么？

python - 什么时候使用 dynamodb.client、dynamodb.resource 和 dynamodb.Table？
我正在使用 Boto3 和 Python 开发 Dyanamodb。我发现的问题之一是我们应该何时使用 dynamodb.client、dynamodb.resource 和 dynamodb.Tab
amazon-dynamodb - DynamoDB 如何分区表？
DynamoDB documentation描述了表分区原则上是如何工作的，但它对细节(即数字)非常了解。 DynamoDB 表分区究竟如何以及何时发生？最佳答案我找到了这个 presentati
amazon-dynamodb - DynamoDB - 读取一个项目并返回一个数组大小
我在 DynamoDB 表中有一个项目。该项目看起来像这样: { data: [ 1, 2, 3, 4, 5, 6 ] more_data: [ 2, 3, 4, 5, 6, 7 ] } 使用
amazon-dynamodb - DynamoDB 通过检查属性值长度进行条件更新
我的 DynamoDB 表中的一个属性是一个名为 REQUEST_IDS 的列表，我想在更新项目之前检查该列表的长度以查看它是否满足条件(小于 10) .如何在 nodejs 的 ConditionE
amazon-dynamodb - dynamodb 从表中获取最早插入的不同值
我正在使用 Amazon Dynamodb，但没有太多经验。我有这样的价格表: 编号 |插入日期 |产品名称 |店名 |价格相同的商店名称和产品名称可以有不同的值(价格和插入日期可能不同)。例如 i
amazon-dynamodb - DynamoDB 查询限制
我对 DynamoDB 上查询/扫描的限制有疑问。我的表有 1000 条记录，对所有记录的查询返回 50 个值，但是如果我将 Limit 设置为 5，这并不意味着查询将返回前 5 个值，它只是说查询
amazon-dynamodb - DynamoDB 中的分页
我需要在 jsp 上显示最大计数为 10 的搜索结果，并且它应该有一个分页来作为分页功能来回遍历。 Dynamodb 有一个最后评估 key ，但返回上一页无济于事，尽管我可以通过移动到下一个结果
amazon-dynamodb - DynamoDB 是否支持在表的主键中使用其中一种数据类型？
我是 CouchDB 的忠实粉丝，并且完全爱上了每个文档发出不止一次的 map 函数。我想知道在 DynamoDB 中是否可以通过使用字符串或数字集类型作为散列和范围主键的一部分(作为散列或范围属性)
amazon-dynamodb - DynamoDB 中条件写入的日期时间比较
我目前正在使用 DynamoDB。如果该记录的日期早于新记录日期字段，我想使用条件写入来更新记录。有没有办法比较条件写入的 DateTime 类型？还是目前仅适用于整数、字符串和流？谢谢。最佳答
amazon-dynamodb - DynamoDb 中标记系统的数据模型
如何对 dynamoDB 表建模以构建一个标签系统，其中产品可以分配多个标签，并且我们应该能够过滤具有特定标签或标签集合的产品集，并获取分配给给定标签的所有标签产品？我考虑过有一张 table :
amazon-dynamodb - DynamoDB 邻接列表模式
我试图更好地理解在 AWS DynamoDB 中使用邻接列表模式进行多对多 (m:n) 关系设计。在此处查看 AWS 文档:https://docs.aws.amazon.com/amazondyn
amazon-dynamodb - DynamoDB 吞吐量超出异常错误
我怀疑 DynamoDB 中的这一说法是否属实或我的理解不正确。它说， ProvisionedThroughputExceededException 消息:您超出了表或一个或多个全局二级索引的最大允许
amazon-dynamodb - DynamoDB 如何查询重叠的时间范围
考虑一个 DynamoDB 表，它由一个主键和两个描述开始日期和结束日期的属性组成。如何在不扫描整个表的情况下查询时间范围是否与表中的时间范围重叠？例子: 发电机表有两条记录 PK Start
amazon-dynamodb - DynamoDB 流是这个用例的正确选择吗？
我有一个 DynamoDB 表，其中包含将由许多应用程序读取的键值对。在启动时，每个应用程序将读取整个表并将其缓存在内存中。我试图解决的问题是，如果 DynamoDB 表中的一个或多个项目已被修改，
amazon-dynamodb - dynamoDB 记录更新后如何返回项目
我正在有条件地更新 dynamoDB 记录(仅当记录具有其属性之一的特定值时)。无论是否成功更新(条件是否满足)，我都想取回记录。 docClient.update(params, function(
amazon-dynamodb - DynamoDB 批量写入项目限制
我目前正在对 DynamoDB 进行批量加载并将我们的数据项划分为批处理单元: 根据限制文件: https://docs.aws.amazon.com/amazondynamodb/latest/AP
amazon-dynamodb - Dynamodb create_table调用失败
我正在跟踪dynamodb的Python教程，以在端口8000上设置本地dynomodb http://docs.aws.amazon.com/amazondynamodb/latest/gettin
amazon-dynamodb - DynamoDB 跨主索引和全局二级索引的键唯一性
我正在创建一个 DynamoDB 表来保存与单个对象关联的注释。评论在特定时间发布到对象，我使用发布的时间作为范围，因此评论可以按时间降序排序。我有发布评论的用户的 userId 的全局二级索引，这
amazon-dynamodb - Dynamodb 自动缩放的速度不够快
我正在运行一个简单的 api，它在每次调用时从 dynamodb 表中获取一个项目，我将自动缩放设置为最小值 25 和最大值 10 000。但是，如果我使用 wrk 或 hey 之类的工具发送 15
amazon-dynamodb - Dynamodb +在putItem请求中如何传递空值？
我在模型中有一个字段已声明为字符串，如下所示: App.Student= DS.Model.extend({ name: DS.attr('string'), address1: DS.attr('s

首页

博学

6Ren·AI

商城

elasticsearch - 如何将预先存在的数据从 DynamoDB 添加到 Elasticsearch？