dataframe - 编写 UDF 以在 Java 中的 Map 中查找，给出不支持的文字类型类 java.util.HashMap-6ren

dataframe - 编写 UDF 以在 Java 中的 Map 中查找，给出不支持的文字类型类 java.util.HashMap

转载作者：行者123 更新时间：2023-12-05 06:11:35

25

4

我正在使用带有 spark v2.4.1 的 java8

我正在尝试使用 UDF 使用 Map 进行查找，如下所示

数据:

+-----+-----+-----+
|code1|code2|code3|
+-----+-----+-----+
|1    |7    |  5  |
|2    |7    |  4  |
|3    |7    |  3  |
|4    |7    |  2  |
|5    |7    |  1  |
+-----+-----+-----+

预期数据:

+-----+-----+-----+
|code1|code2|code3|
+-----+-----+-----+
|1    |7    |51   |
|2    |7    |41   |
|3    |7    |31   |
|4    |7    |21   |
|5    |7    |11   |
+-----+-----+-----+

Map<Integer,Integer> map= new HashMap<>();
      map.put(1,11);
      map.put(2,21);
      map.put(3,31);
      map.put(4,41);
      map.put(5,51);



public static UDF2 userDefinedFunction= new UDF2<java.util.Map<Integer, Integer> ,Integer, Integer>() 
 {
        private static final long serialVersionUID = 1L;
        
        @Override
        public Integer call(java.util.Map<Integer, Integer> map, Integer score) throws Exception {
            return map.get(score);
        }
    };


  Dataset<Row> resultDs= dataDs.withColumn("code3",
           functions.callUDF("userDefinedFunction",col("code3"),lit(map) ) )

错误:

java.lang.RuntimeException: 不支持的文字类型类 java.util.HashMap

这里有什么问题？如何使用 JavaAPI 在 UDF 中传递/处理 HashMap 参数

数据:

    List<String[]> stringAsList = new ArrayList<>();
    stringAsList.add(new String[] { "1","7","5" });
    stringAsList.add(new String[] { "2","7","4" });
    stringAsList.add(new String[] { "3","7","3" });
    stringAsList.add(new String[] { "4","7","2" });
    stringAsList.add(new String[] { "5","7","1" });
    
    JavaSparkContext sparkContext = new JavaSparkContext(sparkSession.sparkContext());
    JavaRDD<Row> rowRDD = sparkContext.parallelize(stringAsList).map((String[] row) -> RowFactory.create(row));

   
    StructType schema = DataTypes
            .createStructType(new StructField[] {
                    DataTypes.createStructField("code1", DataTypes.StringType, false),
                    DataTypes.createStructField("code2", DataTypes.StringType, false),
                    DataTypes.createStructField("code3", DataTypes.StringType, false)
                  
            });

    Dataset<Row> dataDf= sparkSession.sqlContext().createDataFrame(rowRDD, schema).toDF();

    
    Dataset<Row> dataDs = dataDf
                    .withColumn("code1", col("code1").cast(DataTypes.IntegerType))
                    .withColumn("code2", col("code2").cast(DataTypes.IntegerType))
                    .withColumn("code3", col("code3").cast(DataTypes.IntegerType))
                      ;

最佳答案

您可以使用partial 将查找映射或数组等传递给udf。看看这个例子。

from functools import partial
from pyspark.sql.functions import udf

fruit_dict = {"O": "Orange", "A": "Apple", "G": "Grape"}
df = spark.createDataFrame([("A", 20), ("G", 30), ("O", 10)], ["Label", "Count"])
def decipher_fruit(label, fruit_map):
  label_names = list(fruit_map.keys())
  if label in label_names:
    return fruit_map[label]
  return None

decipher_fruit_udf = udf(partial(decipher_fruit, fruit_map = fruit_dict), StringType())
df2 = df.withColumn("fruit_name", decipher_fruit_udf("label"))
display(df2)

关于dataframe - 编写 UDF 以在 Java 中的 Map 中查找，给出不支持的文字类型类 java.util.HashMap，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63935600/

25

4

0

文章推荐： multithreading - Julia Threads.@threads 比单线程性能慢

typescript - 确定类型是 'string' 文字、 'number' 文字还是 'string | number' 文字
由于 typescript 现在支持条件类型，我决定进行一些元编程，为 VSCODE intellisense 添加更多 flavor 。但是，虽然使用 A extends B 可以轻松分离其他类型，
PHP:文字\n而不是新行
我有一个 php var，它在回显时将 JS 函数写入页面的源代码。该函数循环遍历 CSV，因此其中包含以下行: $str="var lines = data.split('\n');"; 目前，当回
JavaScript 文字，键的指针值
我有以下代码: name= "a"; value="b" $.post("ajax.php", {name:value}).... 然而 ajax.php 将收到 name=b 而不是 a=b。我如
javascript - 如何获取符号名称(文字)？
以下情况: var myVehicle = { brand: 'Tesla' }; var isMoving = Symbol(); var currentStatus = Symbol(); myV
JavaScript "\8"文字
我正在为 Python 翻译器编写 JavaScript，“\8”和“\9”给我带来了很多问题。根据文档，像“\8”或“\9”这样的东西是非法的，因为它们不是有效的八进制转义符。 Esprima pa
Android背景隐藏 subview 文字
我有一个简单的 LinearLayout。当我将 android:background 添加到 LinearLayout 时，TextView 不再可见。我不明白什么？
html - 如何在图像悬停时创建深色淡入淡出+文字？
在尝试获得某种效果时遇到困难: 我有一张图片。我想将鼠标悬停在它上面。它应该变黑并弹出一些文本。例子^ 执行此操作最简单/最简单的设置是什么？最好只有 HTML 和 CSS 注意:该元素需要在 CS
C 文字，这些存储在哪里
考虑以下代码: #include void f(const char * str) { str = "java"; } void main (int argc, char * argv[])
MySQL unicode 文字
我想在 MySQL 中插入一条具有非 ASCII Unicode 字符的记录，但我在一个不允许我轻松键入非 ASCII 字符的终端上。如何在 MySQL 的 SQL 语法中转义 Unicode 文字？
[Perl]文字/代码批量替换工具
Perl脚本batchReplace.pl可以用来批量替换文件中的文字/代码。可在指定目录中查找指定类型的文件，并递归检查子目录；在输出文件时复制输入文件的目录结构。 [附件]Win32应用程序b
dart - 在flutter中分享图片+文字+网址的便捷方式
我知道从 flutter 应用程序共享的官方包。 https://pub.dartlang.org/packages/share 共享文本和 url 很容易，但我想共享来自服务器的图像意味着它是 UR
qt - 如何定义 qreal 文字
在 Qt 文档中，它说 qreal是一个 Typedef for double unless Qt is configured with the -qreal float option. 这基本上意味
类型中的 Idris Nat 文字
我想让 idris 证明 testMult : mult 3 3 = 9有人居住。不幸的是，这是键入为 mult (fromInteger 3) (fromInteger 3) = fromInte
objective-c - 我自己的@{} 文字
如您所知，Apple 为 NSNumber、NSDictionary、NSArray 等类提供了 @literals，因此我们可以通过这种方式创建对象，例如 NSArray *array = @[ob
F# - 公共(public)文字
有没有办法在类型上定义公共(public)文字(C# 中的公共(public) const)？显然 let 类型中的绑定(bind)必须是私有(private)的，并且 Literal 属性不能应用于
ANTLR4 语法不识别 bool 文字
为什么下面的语法不能识别 bool 值？我已经将其与 Java 和 GraphQL 的语法进行了比较，但不明白为什么它不起作用。给定以下语法，解析如下: foo = null // foo = v
S 表达式的列表，(文字)数据的向量？
当我需要一个文字来测试一个带有序列的函数时，我注意到我自己的习惯比列表更频繁地使用向量。 IE。 : (map inc [1 2 3]) 但不是: (map inc (list 1 2 3)) 虽然它
sqlite - 文字(原始)值作为sqlite中的外键
是否可以在sqlite中制作类似的东西？ FOREIGN KEY(TypeCode, 'ARawValue', IdServeur) REFERENCES OTHERTABLE(TypeCode, T
assembly - 文字 VS 立即操作数
在我这学期的系统软件类(class)中，我们正在学习汇编程序和其他系统软件。在阅读整个类(class)时，我遇到了LITERALS主题。对文字和立即操作数进行了比较，发现它们之间的唯一区别是文字不被
opencv - Gstreamer RTP传输视频+文字
我正在使用命令行语法编写一个 gstreamer 管道来发送视频流，并想用它发送数据。我认为可行的一种解决方案是将数据作为字幕文件发送。我可以使用以下管道通过 rtp 多路复用视频和字幕文件: gs

首页

博学

6Ren·AI

商城

dataframe - 编写 UDF 以在 Java 中的 Map 中查找，给出不支持的文字类型类 java.util.HashMap