gpt4 book ai didi

hadoop - Ambari Hadoop/Spark 和 Elasticsearch SSL 集成

转载 作者:可可西里 更新时间:2023-11-01 16:38:28 25 4
gpt4 key购买 nike

我通过 Ambari ( HDP -2.6.2.0) 设置了 Hadoop/Spark 集群。现在我的集群正在运行,我想向其中输入一些数据。我们内部有一个 Elasticsearch 集群(5.6 版)。我想设置 Elastic 提供的 ES-Hadoop 连接器 ( https://www.elastic.co/guide/en/elasticsearch/hadoop/current/doc-sections.html ),这样我就可以将一些数据从 Elastic 转储到 HDFS。我用 JARS 抓取了 ZIP 文件,并按照 CERN 博客文章中的说明进行操作:

https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and-querying

到目前为止,这似乎是合理的,但我有一些问题:

  1. 我们在 Elasticsearch 集群上设置了 SSL/TLS,因此当我执行查询时,使用博客上的示例显然会出错。我需要在 Hadoop/Spark 端和 Elastic 端做什么才能使这种通信正常进行?

  2. 我读到我需要将这些 JARS 添加到 Spark 类路径中 - 关于我应该将它们放在我的集群中的什么位置是否有经验法则?我承担了我的 Spark Client 节点,但我不确定。另外,一旦我把它们放在那里,有没有办法将它们添加到类路径中,以便我的所有节点/客户端节点都具有相同的类路径?也许 Ambari 中的某些东西提供了这一点?

基本上我正在寻找的是能够从 Spark 执行对 ES 的查询,该查询触发一个作业,告诉 ES 将“X”量的数据推送到我的 HDFS。根据我在 Elastic 网站上看到的内容,我认为它应该是这样工作的,但我真的对文档感到困惑。它缺乏并且让我和我的 Elastic 团队感到困惑。有人可以提供一些明确的指示或澄清我需要做什么来设置它吗?

最佳答案

对于问题的项目设置部分,你可以看看

https://github.com/zouzias/elasticsearch-spark-example

elasticsearch与spark集成的项目模板。

关于hadoop - Ambari Hadoop/Spark 和 Elasticsearch SSL 集成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46800867/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com