- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Databricks 上使用 Spark 监听器,我试图查看是否安装了给定的类,但由于 Databricks 安装包的方式,监听器无法在集群启动后看到安装的包。
在 Java Spark 监听器中,是否有更好的方法来识别通过 Databricks 的库 API/UI 安装的包安装了类?
--packages
或 --jars
安装的,则适用于 Apache Spark。--conf spark.driver.extraClassPath
安装的,并且所需的库是通过 --packages
或 - 安装的,则在 Apache Spark 上失败-jars
./datbaricks/jars
目录(即 $CLASSPATH
目录)中,则适用于 Databricks。/local_disk0/tmp
)。使用 Apache Spark,我可以通过 --packages
+ --conf spark.extraListeners=listener.MyListener
安装 Spark Listener 并利用 ClassLoader在 Spark Listener 中检查是否有通过 --jars
、--packages
或类路径安装的任何类。检测类是否存在的监听器如下所示。
public class MyListener extends org.apache.spark.scheduler.SparkListener {
private static final Logger log = LoggerFactory.getLogger("MyLogger");
@Override
public void onJobStart(SparkListenerJobStart jobStart) {
try{
log.info("Trying LogicalRelation");
MyListener.class.getClassLoader().loadClass(
"org.apache.spark.sql.execution.datasources.LogicalRelation"
);
log.info("Got logical relation");
}
catch (ClassNotFoundException e){
log.info("Couldn't find LogicalRelation");
}
try{
log.info("Trying org.apache.iceberg.catalog.Catalog");
MyListener.class.getClassLoader().loadClass("org.apache.iceberg.catalog.Catalog");
log.info("Got org.apache.iceberg.catalog.Catalog!!!!");
} catch(ClassNotFoundException e){
log.info("Could not get org.apache.iceberg.catalog.Catalog");
}
try{
log.info("Trying Kusto DefaultSource");
MyListener.class.getClassLoader().loadClass("com.microsoft.kusto.spark.datasource.DefaultSource");
log.info("Got Kusto DefaultSource!!!!");
} catch(ClassNotFoundException e){
log.info("Could not get Kusto DefaultSource");
}
}
}
在 Databricks 上,监听器是通过初始化脚本安装的,如下所示:
cp -f /dbfs/databricks/custom/listener.jar /mnt/driver-daemon/jars || { echo "Error"; exit 1;}
cat << 'EOF' > /databricks/driver/conf/customer-listener.conf
[driver] {
"spark.extraListeners" = "listener.MyListener"
}
EOF
此安装方法与其他公共(public)监听器类似:
看来 Scala ClassLoader doesn't play nicely with a Java classloader 。我尝试添加 URLClassLoader根据另一个SO post on setting a different classloader但 ClassNotFoundException 仍在继续。
但是,Databricks Interactive 笔记本上的这段代码确实成功找到了我的测试类
URLClassLoader ucl;
try {
log.info("URL Class Loader Attempt V3");
File file = new File("/local_disk0/tmp/");
URL classUrl = file.toURI().toURL();
URL[] urls = new URL[] { classUrl };
System.out.println(urls.toString());
ucl = new URLClassLoader(urls, getClass().getClassLoader());
ucl.loadClass("com.microsoft.kusto.spark.datasource.DefaultSource");
try {
ucl.close();
} catch (IOException e) {
log.error("Failed to close url classloader");
}
log.info("GOT KustoLIBRARY with URL Class Loader!");
} catch (ClassNotFoundException e) {
// Still hitting this one
log.info("Could not get Kusto Library with URLClassLoader");
} catch (MalformedURLException e) {
log.info("The URL was malformed");
}
对于 Databricks,大多数用户使用 Libraries在 Spark 启动后安装 jar 的功能,并允许用户通过 Databricks UI 或 API 轻松安装 jar。
当使用上述监听器和 ClassLoader
时,它将始终为通过库 API 安装的包引发 ClassNotFoundException
。
在 Databricks 日志中,我可以看到所需的 jar 正在安装在日志中。
22/07/14 13:32:34 INFO DriverCorral: [Thread 123] AttachLibraries - candidate libraries: List(JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE)
22/07/14 13:32:34 INFO DriverCorral: [Thread 123] AttachLibraries - new libraries to install (including resolved dependencies): List(JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE))
22/07/14 13:32:37 INFO SharedDriverContext: [Thread 123] attachLibrariesToSpark JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE)
22/07/14 13:32:37 INFO LibraryDownloadManager: Downloading a library that was not in the cache: JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE)
22/07/14 13:32:37 INFO LibraryDownloadManager: Attempt 1: wait until library JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE) is downloaded
22/07/14 13:32:37 INFO LibraryDownloadManager: Downloaded library JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE) as local file /local_disk0/tmp/addedFile2043314239110388521kusto_spark_3_0_2_12_3_0_0-6add9.jar in 39 milliseconds
22/07/14 13:32:37 INFO SharedDriverContext: Successfully saved library JavaJarId(dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar,,NONE) to local file /local_disk0/tmp/addedFile2043314239110388521kusto_spark_3_0_2_12_3_0_0-6add9.jar
22/07/14 13:32:37 INFO SharedDriverContext: Successfully attached library dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar to Spark
22/07/14 13:32:37 INFO LibraryState: [Thread 123] Successfully attached library dbfs:/FileStore/jars/maven/com/microsoft/azure/kusto/kusto-spark_3.0_2.12-3.0.0.jar
如果我要将所需的 jar/包及其所有依赖项安装到 /databricks/jars
文件夹中,Spark 监听器可以成功检测到这些包已安装。 Confirmed by Databricks Employee on SO 。但是,考虑到 Databricks 库功能,这并不是常见做法。
因此,这一切似乎都归结为:如何让 Databricks 交互式或作业集群上的主类加载器识别通过 Spark 应用程序上下文安装的库(如库 API/UI 中所示)?
感谢您的见解!
最佳答案
使用Thread.currentThread().getContextClassLoader().loadClass("<class_name>")
而不是MyListener.class.getClassLoader().loadClass("<class_name>")
在这种情况下似乎可以按要求工作。
Apache Spark implementation还使用Thread.currentThread().getContextClassLoader
.
以下 Stack Overflow 帖子有助于理解这两种方法之间的差异:
这个article似乎还提供了有关 Java 中不同类型的类加载器的更多信息。
希望这有帮助!
关于java - 如何通过 Spark Listener 检查 Databricks 上是否安装了类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72985892/
我听说最好不要从您系统的 Perl 版本所在的 CPAN 安装模块。我知道如何使用命令行安装模块,我只是想知道是否有办法将 CPAN 与系统核心 Perl 分开。 我应该: 下载源代码并专门为这些模块
我听说最好不要从系统的 Perl 版本所在的 CPAN 安装模块。我知道如何使用命令行安装模块,我只是想知道是否有办法将 CPAN 与系统的核心 Perl 分开。 我应该: 下载源代码并专门为这些模块
单独安装 electron 与通过 electron-builder 安装有什么区别?我正在使用 React 构建一个 Electron 应用程序,并且已经找到了一些教程。它们安装 Electron
两者安装有什么区别?我按照安装页面上的说明在全局范围内安装了 webpack,然后我转到了入门指南,据说在那里可以在本地安装 webpack-cli。 CLI = Command Line Inter
我在 OS X Yosemite 上用 PHP 安装了默认的 Apache 服务器,安装了 pear,用 brew 安装了 Solr (brew install solr),现在我正在尝试使用 PEC
我解压并编译了 Ruby 2.1 并安装了几个支持工具。 但是当我安装了 libssl-dev 时,OpenSSL 不会安装。 我在支持 openssl 时遇到这个错误: make: *** No r
我在 android studio 2.3.1 和 gradle 3.2 中设计了 2 到 3 个应用程序。当我从它运行应用程序到任何设备或模拟器时,一切都工作正常。但是当我从构建文件夹中获取该 ap
我注意到我正在读一本书提到通过 apt-get 安装 numpy 和 opencv apt-get install python-numpy python-opencv 但我可以通过以下方式在 pip
我正在尝试在 Windows 8.1 上安装 ansicon。我提取了文件并达到了我需要调用 ansicon -i 的级别。当我在 cmd 中输入此内容并运行 python 脚本时效果很好,但是当我通
我有 linux MINT 17.3 Kernel 4.4.0-81 所有更新可用。 (由于不同的原因,我无法迁移到更新版本的 ubuntu/mint) 我已经通过 PPA 安装了 FFMPEG(不是
尝试在本地运行我的应用程序时出现错误: 我只在 chrome 浏览器中收到此错误。我尝试过不同的东西,但我不确定为什么它是 Chrome 特定的。 最佳答案 我怀疑这不是 Firebase 问题,而是
这是我第一次开发 AngularJS 应用程序并使用脚手架工具 Yeoman ( http://yeoman.io/ )。我想对我的一些图标使用 fontawesome ( http://fortaw
我知道您通常“应该”$ pip install 如果包没有 brew ,但如果有一个你想安装的 python 包,你可以使用 $ pip install或 $ brew install为了?例如,通过
我正在尝试通过 RVM 安装 Ruby 1.9.3。然而,当谈到安装 RubyGems 时,我得到了这个: curl: (22) The requested URL returned error: 4
我是真正提出问题的新手,但你去吧。 我一直在尝试按照安装指南添加 dnsname: https://github.com/containers/dnsname https://github.com/c
Studio更新至0.4.0 建筑产量为“需要1.8版Gradle”;将设置设置为1.8 bin目录; 建立 “要求1.9级”;将设置设置为1.9 bin; 建立 “要求1.8级” 啊。不知道该怎么做
我刚刚注意到 kernel.org 因维护而停机。是否有使用不同镜子的不同公式?或者我可以向 Homebrew 软件添加不同的来源(如 bundler ?)? 谢谢你的帮助! 最佳答案 快速解决方法:
当我运行时: peardev install phpunit/PHPUnit 我得到以下信息: No releases available for package "pear.phpunit.de/P
服务器操作系统为Fedora 24. 64bit。 我想安装 Git 2.6.6。 所以下载源码并安装。 此服务器离线。所以我不使用“yum”。 ./configure --prefix=/usr/l
我正在尝试在我自己的服务器(操作系统:Linux Ubuntu Server 12.04)上安装 OpenEdX,但我遇到了同样的错误。谁能帮帮我? TASK: [ insights | insta
我是一名优秀的程序员,十分优秀!