gpt4 book ai didi

java - 确定在 Hive 中创建 UDF 的语言

转载 作者:行者123 更新时间:2023-12-02 05:55:45 24 4
gpt4 key购买 nike

摘要:问题与 Hive 中的 UDF 创建有关。

亲爱的 friend 们,由于我是在 Hive 中创建 UDF 的新手(我已通过 google 阅读过此内容,但没有得到非常清晰的想法),我在这里的第一件事是确定哪种方式是最好的方式,例如 Java/Python 或任何其他编写 Hive UDF。

另一件事是我应该根据什么来分析?我应该寻找哪些参数?

请注意,下面给出的函数很少需要编写 UDF。1. 当需要“无聚合”时,选择另一个函数所需的子句并进行分组。2.返回需要“聚合”时所需的select和group by子句。3.对于vector_indexes都是SUM、LISTAGG字符串,用于数据采集查询4. 返回其他函数使用的WHERE 子句。5 以逗号分隔的字符串形式返回第 n 项。6. 窄数据的百分位值函数。7. 计算给定计数器名称的百分位数。除了百分位之外,它还输出计算中使用的样本数、峰值和平均值。

提前非常感谢您,

最佳答案

这个问题可能不在指南范围内,因为您正在征求意见。

话虽如此,我建议:

A)您选择一种您了解的语言。

B) 如果您两者都了解,则根据您需要的功能进行选择。

C) 考虑性能 - 我相信(但不能确认)编译后的 Java Jar 将在不启动 java 运行时的情况下运行,只是为了支持该 Java 模块(它将在 hive java 实例内运行)。要运行 Python 模块,需要实例化新的 Python 解释器并通过进程间通信传输数据。因此,java可能性能稍微好一点——特别是如果算法很简单的话。然而,除非您正在处理巨大的数据集,否则您可能不会注意到。

最后,您可能可以使用 Hive 查询语言完成您要求的所有功能。

关于java - 确定在 Hive 中创建 UDF 的语言,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56014157/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com