- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在使用开源工具构建实时大数据工具。我们的主要目标是通过实时从 kafka 服务器获取日志来监督和分析网络。我们在教程中看到我们必须将我们的工具分为两部分:分析和监督,如下所示。
对于监督部分,我们选择了解决方案 Elasticsearch 和 Logstash。
关于分析部分,我和我的团队正在比较 Apache Storm Streaming 和 Apache Storm,以便将其与 Elasticsearch 一起使用。尽管 Apache Storm 是一个真正的实时数据处理工具并且比 Apache Spark Streaming 更快,但它并不像 Apache Spark 那样提供机器学习库。这就是我们考虑选择 Apache Spark 的原因。 elastic 网站表明它存在一个连接器 ES-Hadoop,用于将 Elasticsearch 数据库连接到 Hadoop 生态系统。我们可以在下图中看到。
但是,我们对这张图片有点困惑,因为只有 spark SQL 而不是所有的 spark 框架(MLlib、Spark Streaming..)。我们做了一些假设,得出了两种最终可能的架构。我们只是想知道在技术上是否正确以及我们是否在错误的方向上。
最佳答案
您的两个架构图都可以。请记住,Spark Streaming 在这种情况下不起作用。 Es-hadoop 为您提供了易于访问的 apis,以从 Elastic 获取数据和将数据放入 Elastic。它还提供了在 spark 框架 (RDD) 中获取数据或在 spark sql 的情况下获取数据帧的方法。一旦数据在框架中,所有 ml 库都可以应用于 ml 或分析生成的数据。 Elastic 无法传输数据,因此严格意义上的 Spark Streaming 是不可能的。因此在图中,可以删除指向 hdfs optional 和指向 spark streaming 的箭头,并且指向 hdfs 的箭头指向 juat pointa。然而,我担心的是实时对数据运行 mllib 算法并期望实时性能。典型的用例可能是离线生成 modwl 并实时使用模型进行分析。
关于elasticsearch - 如何将 elasticsearch 连接到 apache spark streaming 或 storm?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38271713/
我是一名优秀的程序员,十分优秀!