gpt4 book ai didi

elasticsearch - 从SQL Server加载数据到Elasticsearch的模式

转载 作者:行者123 更新时间:2023-12-02 22:52:02 25 4
gpt4 key购买 nike

这就是我们想出的。通过使用3值状态列。

0 = Not indexed
1 = Updated
2 = Indexed
将有2个工作...
作业1将选择状态= 0的前X个记录,并将它们弹出到类似RabitMQ的队列中。
然后,使用者将这些记录批量插入ES,并将DB记录的状态更新为1。
对于更新,由于我们可以控制数据...更新该特定记录的SQL存储过程会将其状态设置为2。Job2将选择前x个记录,其中status = 2并将其弹出到RabitMQ上。然后,使用者将这些记录批量插入ES,并将DB记录的状态更新为1。
当然,我们可能需要“排队”的中间状态,因此所有作业都不会再次拾取相同的记录,但是如果尚未完成,则相同的作业不应运行。排队记录更新的机会微乎其微。由于更新通常在第二天的一天结束时发生。

So I know there's rivers (but being deprecated and probably not flexible like ETL)

I would like to bulk insert records from my SQL server to Elasticsearch.

Write a scheduled batch job of some sort either ETL or any other tool doesn't matter.

select from table where id > lastIdInsertedToElasticSearch this will allow to load the latest records into Elasticsearch at scheduled interval.

But what if a record is updated in the SQL server? What would be a good pattern to track updated records in the SQL server and then push the updated records in ES? I know ES has document versions when putting the same Id. But can't seem to be able to visualize a pattern.

最佳答案

因此,恕我直言,批处理插入对于构建或重新构建索引非常有用。因此,您第一次可以运行批处理作业,这些批处理作业运行SQL查询并执行批量更新。正如您正确指出的那样,Rivers在转换方面没有提供很多灵活性。

如果SQL数据存储中的条目是由您创建的(即控件中的某些代码库),则最好不要直接通过相同的代码库更新Elasticsearch中的文档,而是通过通知其他服务或借助排队时不要浪费时间来响应请求(如果那是您的设置)。

我们有一个非常相似的Elasticsearch用例。我们在我们的应用程序内提供搜索,该应用程序可对不同类别的数据执行搜索。其中一些数据实际上是由我们的应用程序的用户通过我们的应用程序创建的-因此我们可以轻松地进行处理。我们的应用程序将该数据写入我们的SQL数据存储,并在RabbitMQ中推送相同的数据以在Elasticsearch中进行索引/更新。在RabbitMQ的另一侧,我们有一个用Python编写的使用者,该使用者基本上替代了Elasticsearch中的整个文档。因此,SQL数据存储中的相应行与Elasticsearch中的文档共享ID,这使我们能够更新文档。

另一种情况是,我们执行搜索的某些类型的数据来自某个第三方服务,该服务通过其HTTP API公开数据。数据创建在我们的控制之中,但我们没有自动的机制来更新Elasticsearch中的条目。在这种情况下,我们基本上运行了一个cron作业来解决这个问题。我们设法调整了cron的时间表,因为我们的API查询配额也很有限。但是在这种情况下,我们每天的数据并没有真正更新太多。因此,这种系统对我们有效。

关于elasticsearch - 从SQL Server加载数据到Elasticsearch的模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24577221/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com