gpt4 book ai didi

java - spark thrift 服务器使用尽可能多的工作线程

转载 作者:行者123 更新时间:2023-11-30 06:56:18 25 4
gpt4 key购买 nike

我的环境是spark独立集群。我需要启用配置单元节俭服务器以允许 JDBC 访问 Parquet 文件。同时,我需要启动一个 Java 应用程序(使用 HiveContext),同时 thrift 服务器正在运行,以在同一个 Parquet 文件中加载一些数据。我已经使用基于 DERBY(默认)的独立 Metastore 和由 mysql 数据库管理的 Metastore 进行了实验。我遇到的问题几乎是一样的。如果 thrift 服务器正在运行,则 java 应用程序获得 0 个核心,因此它正在等待 thrift 服务器关闭(然后 java 应用程序关闭它正确处理),而如果应用程序正在运行,则 thrift 服务器甚至无法启动。事实上,thrift 服务器获得尽可能多的内核,并引用尽可能多的工作线程,尽可能多地可用,而不是让其他应用程序获取资源。是否可以减少分配给 thrift 服务器的工作进程的数量?显然没有特定的配置来管理这个参数。

我不认为是nr的问题。核心数,因为我可以添加更多核心并且结果是相同的。

你能就这个话题给我一些建议吗?非常感谢。

最佳答案

将这两个参数放在spark的conf文件夹下的spark-defaults.sh中,这些参数是为1个应用程序允许最大资源。

spark.cores.max=max number of cores(ex. 2)
spark.executor.memory=max memory allowed(ex. 2024M)

或者您可以尝试在 yarn 模式下运行 spark。

关于java - spark thrift 服务器使用尽可能多的工作线程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34506708/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com