- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在使用 Spark 2.1,并且有一个主脚本调用一个包含我所有转换方法的帮助程序模块。换句话说:
main.py
helper.py
在我的 helper.py
文件的顶部,我有几个自定义的 UDF,它们是按以下方式定义的:
def reformat(s):
return reformat_logic(s)
reformat_udf = udf(reformat, StringType())
在我将所有 UDF 分解到帮助程序文件之前,我能够使用 spark.sql('sql statement')
通过我的 SparkSession 对象连接到我的 Hive 元存储。但是,在我将 UDF 移动到辅助文件并将该文件导入我的主脚本顶部之后,SparkSession 对象无法再连接到 Hive 并返回到默认的 Derby 数据库。我在尝试查询我的 Hive 表时也遇到错误,例如 Hive support is required to insert into the following tables...
我已经能够通过将我的 UDF 移动到一个完全独立的文件中并仅在需要它们的函数中运行该模块的导入语句来解决我的问题(不确定这是否是好的做法,但它有效)。无论如何,有人理解为什么我在谈到 Spark 和 UDF 时会看到这种奇怪的行为吗?有没有人知道跨应用程序共享 UDF 的好方法?
最佳答案
在 Spark 2.2.0 之前 UserDefinedFunction
急切地创建 UserDefinedPythonFunction
对象,它代表 JVM 上的 Python UDF。此过程需要访问 SparkContext
和 SparkSession
。如果调用 UserDefinedFunction.__init__
时没有事件实例,Spark 将自动为您初始化上下文。
当您在导入 UserDefinedFunction
对象后调用 SparkSession.Builder.getOrCreate
时,它会返回现有的 SparkSession
实例,并且只能应用一些配置更改( enableHiveSupport
不在其中)。
要解决此问题,您应该在导入 UDF 之前初始化 SparkSession
:
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
from helper import reformat_udf
此行为在 SPARK-19163 中有所描述并在 Spark 2.2.0 中修复。其他 API 改进包括装饰器语法 ( SPARK-19160 ) 和改进的文档字符串处理 ( SPARK-19161 )。
关于python - PySpark 2.1 : Importing module with UDF's breaks Hive connectivity,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43795915/
我有 4 个文件。 C:\perlCode2\start.pl6 C:\perlCode2\file0.pm6 C:\perlCode2\folder1\file1.pm6 C:\perlCode2\
我有一个结构如下的模块: /module __init__.py /submod_1 __init__.py submod_1_class.py
我的源代码在 java 7 上编译并在 java 11 上运行。 我正在尝试将 imperva RASP 作为 java 代理集成到 tomcat 中。但是,当我启动 tomcat 服务器时,它抛出以
justExport.js const first = () => { console.log('frist from justExport') } const second = () => {
以下模块用JS文件编写: module.exports = { propA: 1, propB: 2 } 允许稍后从模块导入属性,如:从“路径/到/模块”导入 { propA} 然而,将文件格
我一直在尝试在嵌套的惰性加载模块中实现ngx翻译,但一直未能如愿。我面临的唯一问题是,每当我通过选择器更改语言时,嵌套延迟加载模块中的语言都不会更改。 HttpLoader 工作正常,其他一切工作正常
我没有可重复的示例,因为问题更多是关于模块如何工作。我试图了解如何将一些 react 功能从一个模块传递到下一个模块。过去我收到过有关使用 ObserveEvent 的回复,但是当我在一个模块中使用响
我正在阅读Wikipedia's definition of Dependency inversion principle ,它使用了两个术语高级模块和低级模块,我无法弄清楚。 它们是什么以及依赖倒置
问题 我遇到的一个问题是将两个模块的类型和值带入一个新的组合模块中。我举个例子。目前我有以下两种类型签名 module type Ordered = sig type t (* the type
我是 JavaScript 的新手,最近一直在努力处理导入问题。有一件事我无法理解。 在较旧的节点模块(主要是那些在 ES6 之前出现的模块)中,可以使用 npm 安装,例如 express,通常没有
我正在尝试使用 System.JS 将 material-ui 导入我的 React 应用 在我的应用中,我这样做: import {AppBar, Tabs, Tab, Card, CardTitl
我想使用功能module->exports查找模块提供的所有导出。不幸的是,传递给该函数的模块必须在当前命名空间中声明,然后才能在其上使用该函数。当我静态地知道模块是什么时,这没问题,我只需要将其引入
目录结构如下 outdir |--lib |--- __init__.py |--- abc.py |--indir
这与提到的非常相似 here但是评论或回答中提供的每个解决方案都没有解决我的问题。想看看是否还有其他我应该看的东西。我尝试了不同的路径,比如 ./app/mycomponent/mycomponent
我有两个 Angular 模块:main 和 feature: 主/根模块: @NgModule({ imports: [ StoreModule.forRoot({route
我尝试在 Ubuntu 04.12 LTS x64 中安装“Userful MultiSeat-X64-5.0.1 ...”,在安装结束时遇到以下错误: File "", line 6, in Im
我正在尝试优化我的 vendor bundle.js,因为它已经膨胀并且我正在使用 material-ui 库。 import Card from 'material-ui'; // Very bad
错误: Import-Module : The specified module 'msonline' was not loaded because no valid module file was
我在 Server 2008 SP2(64 位)上执行导入模块 ActiveDirectory 时遇到问题。 NET Framework 3.5 SP1 已安装 我下载了 Windows6.0-KB9
嗯,你好! 我正在编写一个脚本来获取 Sql 作业历史记录,并且需要使用“SqlServer”模块。它已安装,但由于上面的错误消息,我无法导入它。当我到达模块路径时,文件夹“SqlServer”存在并
我是一名优秀的程序员,十分优秀!