gpt4 book ai didi

sql - 如何获取Hive中字符串使用的文本字节?

转载 作者:行者123 更新时间:2023-12-02 18:58:07 28 4
gpt4 key购买 nike

我在Hive 1.2.1表中有一些数据。我必须获取特定列的原始字节。列数据是使用多种语言的html原始数据。为了获得字符长度,我可以使用如下所示的简单查询

select baseurl, LENGTH(content) from clss limit 30;

上面的查询可以查询字符长度,问题是其他文本是英文,它们的值不正确。对于阿拉伯字符,将其另存为未编码,这就是更改字符长度的原因。有些字符是两个字节,有些是单字节。

是否有任何内置函数可以知道文本字节而不是字符?

最佳答案

在Jira HIVE-15979中添加了功能character_length(string str),它说的是修订版本2.3.0。如果您不能升级您的Hive(这是非常冒险的),请尝试下载UDF源代码并进行构建,然后添加jar并创建临时功能。

下载代码:GenericUDFCharacterLength.java

关于sql - 如何获取Hive中字符串使用的文本字节?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56573840/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com