node.js - 将 elasticsearch & cassandra 与 postgres 数据库同步-6ren

node.js - 将 elasticsearch & cassandra 与 postgres 数据库同步

转载作者：搜寻专家更新时间：2023-11-01 00:05:58

25

4

我想将两个依赖数据库(elasticsearch 和 casandra)与我的父数据库同步:postgres。我正在尝试实现本文中的一种方法:https://qafoo.com/blog/086_how_to_synchronize_a_database_with_elastic_search.html .所以我想出了2种方法

在将数据更新/插入相关数据库之前进行同步

 router.put('/account/edit', function(req, res) { 

  syncElasticWithDatabase().then(() => { 
         elastiClient.update({...}); // client for elasticsearch
         cassandraClient.execute({...}); // client for cassandra
          req.end();
  })

 })

syncElasticWithDatabase() 使用 updates 表中的数据(来自 postgres)，此方法可能很慢，因为有些人必须等待 syncElasticWithDatabase() 完成。我喜欢这种方法，因为我利用了 sequantial_ids(查看文章了解详情)。在新数据进入之前同步数据，允许依赖项 catch 并且只同步丢失的数据。与下面的选项 2 不同，防止重建索引/重新插入。

使用后台进程(ei:每 24 小时运行一次)，我可以通过从 update_error 表中选择“丢失的数据”来同步数据，该表包含 elasticsearch 或 cassandra 失败时的数据。这是一个粗略的例子
```
 router.put('/account/edit', function(req, res) { 

  psqlClient.query('UPDATE....').then(() => { 
       elastiClient.update({...}); // client for elasticsearch
       cassandraClient.execute({...}); // client for cassandra
  }).catch(err => {
      psqlClient.query('INERT INTO update_error ....')
      })

  })
```
然而，这种方法需要重新索引或重新插入数据，因为在某些情况下，elasticsearch 可以插入数据，而 cassandra 则不能，或者以任何一种方式插入。因此，我需要一个单独的列来记录失败的数据库类型。这样我就可以为每种类型的数据库(ealsticsearch 或 cassandra)选择自上次同步时间以来失败的数据。

问题:

方法 1 似乎很完美，但这意味着由于 syncElasticWithDatabase()，有些人必须比其他人等待更长时间才能更新他们的帐户。但是上面的文章完全一样(看他们的图表)还是我误解了什么？
由于上述延迟(如果我是正确的)，我引入了选项 2。但是，为了同步恕我直言，它太多了。然而我花了很长时间思考这个问题……那么有没有比 1 和 2 更简单或更好的方法呢？
Apache Zoo Keeper 对我有帮助吗？

谢谢:)

其他引用

Sync elasticsearch on connection with database - nodeJS

https://gocardless.com/blog/syncing-postgres-to-elasticsearch-lessons-learned/

最佳答案

基本上，您需要使用此处描述的方法 https://qafoo.com/blog/086_how_to_synchronize_a_database_with_elastic_search.html并从一个数据库表中插入和选择数据。但是请确保在“更新”中选择数据时限制选择的数量，例如:LIMIT 100。

工作流程如下:

在 insert/update 期间将数据保存到“updates”表(如果 delete 确保在列中将其标记为已删除)
然后运行这个过程 ->
- 选择您最后插入的内容:来自 elasticsearch 或 Cassandra 的 sequence_id
- 使用它从“更新”表中选择数据，如下所示:id > :sequence_id

然后您可以插入数据(到 elasticsearch 或 cassandra)或做任何事情。确保将数据插入“更新”表之前相关数据库。并且不需要复制 document_id 所以用新的替换它们。这提供了一致性，并允许您在运行 cron 作业或在特定操作期间同时同步它之间进行选择。然后将您的 sequence_id 更新为最后一个。

我选择在插入/更新/删除后直接同步数据到“更新”，然后我执行 res.end() (或任何完成响应的操作)并使用 sync() 函数以升序选择 100 条新记录。我还每 24 小时运行一次 cron 作业(没有 LIMIT 100)以确保遗漏的任何数据都将被同步。哦，是的，如果所有数据库的更新都成功，那么您最好从“更新”中删除记录，除非您出于其他原因使用它。但请注意，elasticsearch 可能会丢失内存中的数据

祝你好运 :) 我乐于接受建议

关于node.js - 将 elasticsearch & cassandra 与 postgres 数据库同步，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39851952/

25

4

0

文章推荐： node.js - Cassandra - 插入时使用了错误的时区

文章推荐： php - php中如何计算两个不同长度数组的相似度百分比

文章推荐： php - 一个文件中的多个 PHP 查询用于 AJAX 调用

IMAP 同步
我正在实现 IMAP 客户端，但 IMAP 邮箱同步出现问题。首先，可以从 IMAP 服务器获取新邮件，但我不知道如何从邮箱中查找已删除的邮件。我是否应该从服务器获取所有消息并将其与本地数据进行比
Java-同步
我研究线程同步。当我有这个例子时: class A { public synchronized void methodA(){ } public synchronized void met
Java——同步
嗨，我做了一个扩展线程的东西，它添加了一个包含 IP 的对象。然后我创建了该线程的两个实例并启动它们。他们使用相同的列表。我现在想使用 Synchronized 来阻止并发更新问题。但它不起作用，我
javascript - 同步
我正在尝试使用 FTP 定期将小数据文件从程序上传到服务器。用户从使用 javascript XMLHttpRequest 函数读取数据的网页访问数据。这一切似乎都有效，但我正在努力解决由 FTP 和
JavaScript 同步
我不知道如何同步下一个代码: javascript: (function() { var s2 = document.createElement('script'); s2.src =
Java 同步
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
同步 EDA 框架设计
一点睛 1 Message 在基于 Message 的系统中，每一个 Event 也可以被称为 Message，Message 是对 Event 更高一个层级的抽象，每一个 Message 都有一个
同步 EDA 框架设计
一点睛 1 Message 在基于 Message 的系统中，每一个 Event 也可以被称为 Message，Message 是对 Event 更高一个层级的抽象，每一个 Message 都有一个
jquery - getJSON 同步
目标:我所追求的是每次在数据库中添加某些内容时(在 $.ajax 到 Submit_to_db.php 之后)，从数据库获取数据并刷新 main.php(通过 draw_polygon 更明显)。所
iphone - 同步 CAAnimations
我有一个重复动画，需要与其他一些 transient 动画同步。重复动画是一条在屏幕上移动 4 秒的扫描线。当它经过下面的图像时，这些图像需要“闪烁”。闪烁的图像可以根据用户的意愿来来去去和移动。它
cuda block 同步
我有 b 个块，每个块有 t 个线程。我可以用 __syncthreads() 同步特定块中的线程。例如 __global__ void aFunction() { for(i=0;i #
azure - Azure表实体存在/同步
我正在使用azure表查询来检索分配给用户的所有错误实体。此外，我更改了实体的属性以声明该实体处于处理模式。处理完实体后，我将从表中删除该实体。当我进行并行测试时，可能会发生查询期间，一个实体已
不同机器上的应用程序访问时的 SQLite 同步
我想知道 SQLite 是如何实现它的。它基于文件锁定吗？当然，并不是每个访问它的用户都锁定了整个数据库；那效率极低。它是基于多个文件还是仅基于一个大文件？如果有人能够简要概述一下 sqlite 中
javascript - jquery如何发布到php，同步
我想post到php，当id EmpAgree1时，然后它的post变量EmpAgree=1；当id为EmpAgree2时，则后置变量EmpAgree=2等。但只是读取i的最后一个值，为什么？以及如何
cuda - CUBLAS 同步
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外，少数返回标量结果的函数，例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2()，通过引用
Java RMI 同步
我知道下面的代码中缺少一些内容，我的问题是关于 RemoteImplementation 中的同步机制。我还了解到该网站和其他网站上有几个关于 RMI 和同步的问题；我在这里寻找明确的确认/矛盾。我
java - AOP+同步
我不太确定如何解决这个问题......所以我可能需要几次尝试才能正确回答这个问题。我有一个用于缓存方法结果的注释。我的代码目前是一个私有(private)分支，但我正在处理的部分从这里开始: http
java - java中的线程/同步
我对 Java 非常失望，因为它不允许以下代码尽可能地并发移动。当没有同步时，两个线程会更频繁地切换，但是当尝试访问同步方法时，在第二个线程获得锁之前以及在第一个线程获得锁之前再次花费太长时间(比如
java - Kotlin 同步
过去几周我一直在研究java多线程。我了解了synchronized，并理解synchronized避免了多个线程同时访问相同的属性。我编写此代码是为了在同一线程中运行两个线程。 val gate =
另一个线程内的 Java 同步
我有一个关于 Java 同步的简单问题。请假设以下代码: public class Test { private String address; private int age;

首页

博学

6Ren·AI

商城

node.js - 将 elasticsearch & cassandra 与 postgres 数据库同步