gpt4 book ai didi

character-encoding - 使用多个字符集在 hive 表中加载数据

转载 作者:行者123 更新时间:2023-12-01 00:35:06 25 4
gpt4 key购买 nike

我面临的问题是我有多个具有不同字符集的文件,比如一个文件有中文字符集,另一个文件有法语字符集,我如何将它们加载到单个配置单元表中?我在网上搜索并找到了这个:-

ALTER TABLE mytable SET SERDEPROPERTIES ('serialization.encoding'='SJIS');

有了这个,我可以处理中文或法文文件之一的字符集。有没有办法一次处理两个字符集?

[更新]

好的,我将 RegexSerde 用于固定宽度的文件,同时使用的编码方案是 - ISO 8859-1。似乎 Regex Serde 没有考虑这种编码方案,并没有考虑默认的 UTF-8 编码方案来拆分字符。有没有办法在 Regex serde 中考虑编码方案。

最佳答案

我不确定这是否可行(我认为它不是基于 https://github.com/apache/hive/blob/master/serde/src/java/org/apache/hadoop/hive/serde2/AbstractEncodingAwareSerDe.java )。一种解决方法是创建两个具有不同编码的表,并在其上创建一个 View 。

关于character-encoding - 使用多个字符集在 hive 表中加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41876085/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com