gpt4 book ai didi

elasticsearch - ES 查询异常

转载 作者:行者123 更新时间:2023-12-03 02:21:09 25 4
gpt4 key购买 nike

我正在使用带有 Elasticsearch-7.2.0 的 Stormcrawler 1.16。 java 版本是 1.8.0_252 。 Storm 版本是 1.2.3,maven 版本是 3.6.3。

我已经使用 mvn 原型(prototype)创建了项目-

    mvn archetype:generate -DarchetypeGroupId=com.digitalpebble.stormcrawler - 
DarchetypeArtifactId=storm-crawler-elasticsearch-archetype -DarchetypeVersion=LATEST

我创建了一个seeds.txt 文件并仅放置9 个用于测试的url,并使用REAEDME.md 文件中给出的命令在--remote 模式下提交了拓扑。

它成功运行并按预期抓取页面。

但是当我将 8000 个 URL 放入种子文件时出现问题。

我再次运行 ES_IndexInit.sh 文件并使用与之前相同的命令提交拓扑。
然后我得到这个错误 -
at java.lang.Thread.run(Thread.java:748) [?:1.8.0_252]
2020-06-12 11:26:11.416 c.d.s.e.p.AggregationSpout pool-12-thread-1 [ERROR] [spout #1] Exception with ES query
java.net.ConnectException: Connection refused
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) ~[?:1.8.0_252]
at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:714) ~[?:1.8.0_252]
at org.apache.http.impl.nio.reactor.DefaultConnectingIOReactor.processEvent(DefaultConnectingIOReactor.java:174) [stormjar.jar:?]
at org.apache.http.impl.nio.reactor.DefaultConnectingIOReactor.processEvents(DefaultConnectingIOReactor.java:148) [stormjar.jar:?]
at org.apache.http.impl.nio.reactor.AbstractMultiworkerIOReactor.execute(AbstractMultiworkerIOReactor.java:351) [stormjar.jar:?]
at org.apache.http.impl.nio.conn.PoolingNHttpClientConnectionManager.execute(PoolingNHttpClientConnectionManager.java:221) [stormjar.jar:?]
at org.apache.http.impl.nio.client.CloseableHttpAsyncClientBase$1.run(CloseableHttpAsyncClientBase.java:64) [stormjar.jar:?]
at java.lang.Thread.run(Thread.java:748) [?:1.8.0_252]

然后我在 worker.log 文件中查找错误。我在那里发现了同样的错误。
然后我检查我的碎片的健康状况 -
      {
"cluster_name" : "my-cluster1",
"status" : "green",
"timed_out" : false,
"number_of_nodes" : 1,
"number_of_data_nodes" : 1,
"active_primary_shards" : 2,
"active_shards" : 2,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"delayed_unassigned_shards" : 0,
"number_of_pending_tasks" : 0,
"number_of_in_flight_fetch" : 0,
"task_max_waiting_in_queue_millis" : 0,
"active_shards_percent_as_number" : 100.0,
"indices" : {
".kibana_task_manager" : {
"status" : "green",
"number_of_shards" : 1,
"number_of_replicas" : 0,
"active_primary_shards" : 1,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"shards" : {
"0" : {
"status" : "green",
"primary_active" : true,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0
}
}
},
".kibana_1" : {
"status" : "green",
"number_of_shards" : 1,
"number_of_replicas" : 0,
"active_primary_shards" : 1,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"shards" : {
"0" : {
"status" : "green",
"primary_active" : true,
"active_shards" : 1,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0
}
}
}
}
}

shards 的健康状况是绿色的。
现在,如果我在不同的或新的项目中提交爬虫拓扑,拓扑仍然是理想的,并且不会发出或传输任何元组。

我使用的是相互兼容的版本吗?我应该使用 java 11 进行 Elasticsearch 还是可以正常工作?

有关实例的详细信息 -
我正在使用具有 4 GB 内存的 ec2 中等实例 ubuntu 18.04。

有人请解释问题是什么?

最佳答案

除非您想删除状态索引中的 URL,否则您不需要再次运行 ESInitScript。如果您多次运行它,将不会有任何状态,这可能是拓扑空闲的原因。

没有理由在种子文件中有更多的 URL 会导致问题,我们通常有超过 1M 的 URL 的种子文件,这不是问题。

关于elasticsearch - ES 查询异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62346814/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com