java - 使用 Hadoop 从 Spark 连接到 ElasticSearch 不工作-6ren

java - 使用 Hadoop 从 Spark 连接到 ElasticSearch 不工作

转载作者：可可西里更新时间：2023-11-01 14:48:44

我在从我的 Java 代码连接到本地运行的 ElasticSearch 节点时遇到问题，该代码作为提交给 Spark 的作业运行(本地运行)。但是，当我不使用 Spark 时，连接没有问题。还运行 Python 作业并将其提交给 spark 工作正常。

我知道对于 Java，我需要通过端口 9300 而不是 9200(HTTP 端口)进行连接。尽管如此，我总是得到同样的异常，阅读或写作没有区别:

16/08/04 16:51:55 ERROR NetworkClient: Node [The server localhost failed to respond with a valid HTTP response] failed (localhost:9300); no other nodes left - aborting...Exception in thread "main" org.elasticsearch.hadoop.rest.EsHadoopNoNodesLeftException: Connection error (check network and/or proxy settings)- all nodes failed; tried [[localhost:9300]]     at org.elasticsearch.hadoop.rest.NetworkClient.execute(NetworkClient.java:102)    at org.elasticsearch.hadoop.rest.RestClient.execute(RestClient.java:282)    at org.elasticsearch.hadoop.rest.RestClient.execute(RestClient.java:266)    at org.elasticsearch.hadoop.rest.RestClient.execute(RestClient.java:270)    at org.elasticsearch.hadoop.rest.RestClient.get(RestClient.java:108)    at org.elasticsearch.hadoop.rest.RestClient.discoverNodes(RestClient.java:90)    at org.elasticsearch.hadoop.rest.InitializationUtils.discoverNodesIfNeeded(InitializationUtils.java:61)    at org.elasticsearch.hadoop.mr.EsInputFormat.getSplits(EsInputFormat.java:434)    at org.elasticsearch.hadoop.mr.EsInputFormat.getSplits(EsInputFormat.java:415)    at org.apache.spark.rdd.NewHadoopRDD.getPartitions(NewHadoopRDD.scala:120)    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)    at scala.Option.getOrElse(Option.scala:120)    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)    at org.apache.spark.rdd.RDD$$anonfun$take$1.apply(RDD.scala:1307)    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150)    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111)    at org.apache.spark.rdd.RDD.withScope(RDD.scala:316)    at org.apache.spark.rdd.RDD.take(RDD.scala:1302)    at org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1342)    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150)    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111)    at org.apache.spark.rdd.RDD.withScope(RDD.scala:316)    at org.apache.spark.rdd.RDD.first(RDD.scala:1341)    at org.apache.spark.api.java.JavaPairRDD.first(JavaPairRDD.scala:211)    at com.dd.mediaforce.spark.most_popular.ExecutorMostPopular.main(ExecutorMostPopular.java:564)    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)    at java.lang.reflect.Method.invoke(Method.java:498)    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731)    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181)    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206)    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121)    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

We are running Spark and ElasticSearch on a number of nodes. The Python code is running fine here, but trying the Java code with this setup of ES didn't help solving the problem either.

The code I'm using connect from Java:

    SparkConf _sparkConf = new SparkConf()
            .setMaster("local[*]")
            .setAppName("Test");
    JavaSparkContext jsc = new JavaSparkContext(_sparkConf);
    Configuration conf = new Configuration();
    conf.set("cluster.name", "our_clustername");
    conf.set("es.nodes", "localhost");
    conf.setInt("es.port", 9300);
    conf.set("es.resource", index_and_type);
    JavaPairRDD readRdd = jsc.newAPIHadoopRDD(conf, org.elasticsearch.hadoop.mr.EsInputFormat.class, org.apache.hadoop.io.NullWritable.class, org.elasticsearch.hadoop.mr.LinkedMapWritable.class);
    System.out.println(readRdd.first());
    jsc.stop();

如前所述，使用 TransportClient(没有 Spark)的以下 Java 代码连接到 ES 没有问题，写入和读取工作正常:

    Client client = TransportClient.builder().settings(settings).build().addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName("localhost"), 9300));

    ImmutableOpenMap<String, IndexMetaData> indices = client.admin().cluster().prepareState().get().getState().getMetaData().getIndices();
    for (ObjectCursor<IndexMetaData> value : indices.values()) {
        log.info("Index: " + value.index + " : " + value.toString());
    }

    GetResponse response = client.prepareGet("index_name", "type_name", "1").get();
    log.info(response.getIndex() + " : " + response.getId() + " : " + response.isExists());

    String field_id = "6";
    IndexRequest indexRequest = new IndexRequest("index_name", "type", "2")
        .source(jsonBuilder()
                .startObject()
                .prettyPrint()
                .field("field_id", field_id)
                .field("another_field", "value")
                .field("integer_field", 100)
                .endObject());

    UpdateRequest updateRequest = new UpdateRequest("index_name", "type_name", article_id)
        .doc(jsonBuilder()
                .startObject()
                .prettyPrint()
                .field("field_id", field_id)
                .field("another_field", "value")
                .field("integer_field", 100)
                .endObject())
                .upsert(indexRequest);

    UpdateResponse responseUpdate = client.update(updateRequest).get();
    log.info(responseUpdate.getIndex() + " : " + responseUpdate.getGetResult() + " : " + responseUpdate.getType());
    client.close();

欢迎任何建议，因为我已经被困在这里好几天了，没有任何进一步的印象。我显然用 Google 搜索了这个问题并在 StackOverflow 上进行了搜索，但到目前为止我还没有找到我的问题的答案。

为了完整性，一些 Python 代码也可以使用 Spark 很好地读取和写入 ES。

conf = SparkConf()
conf = conf.setAppName('Test')
sc = SparkContext(conf=conf)

#Omitting some of the code in creating some_rdd on Spark: 

index_and_type = index_name + '/type_name'
groovy_script = "if (ctx._source.%s) { ctx._source.%s+=value } else { ctx._source.%s=value }" % (field, field, field)

es_db_connection_dictionary = {
    "es.nodes": db_hosts,
    "es.port": db_port,
    "es.resource": index_and_type,
    "es.write.operation": "upsert",
    "es.mapping.id": "field_id",
    "es.update.script": groovy_script,
    "es.update.script.params": "value:%s" % integer_field,
    "es.http.timeout": "10s"
}


es_input = views_tuple_rdd.map(lambda item: (item[0],
        {
            'field_id': item[0],
            "integer_field": item[1],
            "another_field": client_name,
        }))

es_input.saveAsNewAPIHadoopFile(
        path='-',
        outputFormatClass="org.elasticsearch.hadoop.mr.EsOutputFormat",
        keyClass="org.apache.hadoop.io.NullWritable",
        valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",
        conf=es_db_connection_dictionary)

最佳答案

通常情况下，如果您使用的是 elasticsearch-spark 连接器，则如果默认端口为 9200，则无需使用端口 9300。它的行为与常规 elasticsearch API 不同。

而且您似乎还使用了与 elasticsearch 不兼容的连接器版本。这是一个常见的错误，因为大多数情况下它们主要在 2.x 中。

我相信 elasticsearch 5.x 不会出现这种情况，他们已将所有其他弹性产品版本与之对齐。

关于java - 使用 Hadoop 从 Spark 连接到 ElasticSearch 不工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38771569/

文章推荐： java - Titan-1.0.0+Hbase-0.98.20使用java远程模式连接错误

文章推荐： html - 如何仅停止CSS中的悬停指针事件

文章推荐： javascript - 拖放突出显示

文章推荐： hadoop - 提高 Hive 中 ORC 文件的写入速度

powershell - Powershell ForEach循环间歇性工作-工作，失败，工作，失败，工作等
我在Windows 10中使用一些简单的Powershell代码遇到了这个奇怪的问题，我认为这可能是我做错了，但我不是Powershell的天才。我有这个: $ix = [System.Net.Dn
javascript - solr 正在为我的本地 iis 工作，而不是为托管 iis 工作
var urlsearch = "http://192.168.10.113:8080/collective-intellegence/StoreClicks?userid=" + userId +
c# - 串行通信不通过 QSerialPort (Qt) 工作，但通过终端 (Termite) 工作
我有一个非常奇怪的问题，过去两天一直让我抓狂。我有一个我试图控制的串行设备(LS 100 光度计)。使用设置了正确参数的终端(白蚁)，我可以发送命令(“MES”)，然后是定界符(CR LF)，然后我
.net - RegFree COM 从 C# 工作，而不是从 VBA 工作
我目前正试图让无需注册的 COM 使用 Excel 作为客户端，使用 .NET dll 作为服务器。目前，我只是试图让概念验证工作，但遇到了麻烦。显然，当我使用 Excel 时，我不能简单地使用与可
java - JAX-RS REST 在 WildFly 工作，但不在 Tomcat 工作
我开发了简单的 REST API - https://github.com/pavelpetrcz/MandaysFigu - 我的问题是在本地主机上，WildFly 16 服务器的应用程序运行正常。
python - 使用 Mongoengine 进行插入只能从 shell 工作，但不能从 Django View 工作
我遇到了奇怪的情况 - 从 Django shell 创建一些 Mongoengine 对象是成功的，但是从 Django View 创建相同的对象看起来成功，但 MongoDB 中没有出现任何数据。
Flask 应用程序上下文 : app. app_context().push() 工作，但无法让 "with app.app_context()" block 工作
我是 flask 的新手，只编写了一个相当简单的网络应用程序——没有数据库，只是一个航类搜索 API 的前端。一切正常，但为了提高我的技能，我正在尝试使用应用程序工厂和蓝图重构我的代码。让它与 pus
javascript - Google Analytics 事件跟踪 JS 在开发控制台中运行/工作，但不能从 ex 文件中运行/工作
我的谷歌分析 JavaScript 事件在开发者控制台中运行得很好。但是当从外部 js 文件包含在页面上时，它们根本不起作用。由于某种原因。例如；下面的内容将在包含在控制台中时运行。但当包含在单
node.js - ZeroMQ PUSH/PULL 通信不能通过 IPC 工作，但它可以通过 TCP 工作
这是一本名为“Node.js 8 the Right Way”的书中的任务。你可以在下面看到它: 这是我的解决方案: 'use strict'; const zmq = require('zeromq
java - 为什么 distinct 通过 flatMap 工作，而不是通过 map 的 "sub-stream"工作？
我正在阅读文本行，并创建其独特单词的列表(在将它们小写之后)。我可以使它与 flatMap 一起工作，但不能使它与 map 的“子”流一起工作。 flatMap 看起来更简洁和“更好”，但为什么 di
powershell - 怎么回声$？工作？
我正在编写一些 PowerShell 脚本来进行一些构建自动化。我发现 here echo $? 根据前面的语句返回真或假。我刚刚发现 echo 是 Write-Output 的别名。写主机 $?
Instagram 个人资料照片没有保存/工作？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
iphone - 无法让presentViewController 工作
我将一个工作 View Controller 类从另一个项目复制到一个新项目中。我无法在新项目中加载 View 。在旧项目中我使用了presentModalViewController。在新版本中，我
JavaScript 函数未加载/工作
我对 javascript 很陌生，所以很难看出我哪里出错了。由于某种原因，我的功能无法正常工作。任何帮助，将不胜感激。我尝试在外部 js 文件、头部/主体中使用它们，但似乎没有任何效果。错误要么出在
Flutter复选框未更改/更新/工作
我正在尝试学习Flutter中的复选框。问题是，当我想在Scaffold(body :)中使用复选框时，它正在工作。但我想在不同的地方使用它，例如ListView中的项目。 return Cente
Spring 侦探行李传播未传播/工作
我们当前使用的是 sleuth 2.2.3.RELEASE，我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
java - JComboBox 工作
我有一个组合框，其中包含一个项目，比如“a”。我想调用该组合框的 Action 监听器，仅在手动选择项目“a”完成时才调用。我也尝试过 ItemStateChanged，但它的工作原理与 Action
java - 我怎样才能让interrupt()工作？
你能看一下照片吗？现在，一步前我执行了 this.interrupt()。您可以看到 this.isInterrupted() 为 false。我仔细观察——“这个”没有改变。它具有相同的 ID (1
Spring 侦探行李传播未传播/工作
我们当前使用的是 sleuth 2.2.3.RELEASE，我们看不到在 http header 中传递的 userId 字段没有传播。下面是我们的代码。 BaggageField REQUEST_I
laravel 工作/通知失败
我正在尝试在我的网站上设置一个联系表单，当有人点击发送时，就会运行一个作业，并在该作业中向所有管理员用户发送通知。不过，我在失败的工作表中不断收到此错误: Illuminate\Database\El

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 使用 Hadoop 从 Spark 连接到 ElasticSearch 不工作