gpt4 book ai didi

mongodb - 建立从MongoDB到ElasticSearch的ETL管道

转载 作者:行者123 更新时间:2023-12-03 00:16:39 25 4
gpt4 key购买 nike

我正在基于Web应用程序数据构建一个大数据分析解决方案。
我拥有的ETL逻辑结构解决方案是:
1. 提取-首先从MongoDB提取数据
2. 转换-在应用了多个转换的地方转换了数据。例如数据转换,数据格式化,合并拼合文档BSON类型数据
3. 加载-转换后的数据最终将被推送到Elastic Search
4.我可以运行机器学习并在ES中转换后的数据上建立统计模型以产生见解
5.我的UI将访问这些生成的见解。

主要问题是上述步骤2,即转换步骤。我经历了Logstash ETL的MongoDB河流,但是如果我想进行繁重的转换(那只能在Spark中进行)该怎么办。
目前,市场上有什么最佳解决方案?

从数据大小的 Angular 来看,每天的累积量以GB为单位,MongoDB中的百万个文档为单位。
为了限制开发范围,我选择了ES作为我的分析后端,并选择了MongoDB作为我的主数据库。

最佳答案

您可以使用mongo-hadoop connector for Apache Spark从MongoDB中提取数据。在Spark中运行转换,甚至使用Apache Spark的MLlib进行机器学习。

结果数据可以存储回MongoDB中。减少ETL堆栈中的组件数。尽管如果需要,您可以将输出从Apache Spark存储回其他一些系统。

关于mongodb - 建立从MongoDB到ElasticSearch的ETL管道,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35601699/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com