gpt4 book ai didi

hadoop - Apache Hive 中的字符集、口音、特殊字符

转载 作者:可可西里 更新时间:2023-11-01 16:11:33 28 4
gpt4 key购买 nike

问题

我的 Hive 表在某些行值中包含特殊字符(法语)时遇到了很多问题。基本上,在查询数据(通过 Hive CLI 或其他方法)时,所有特殊字符(如字母或其他变音符号上的重音)都会变成纯粹的乱码(各种奇怪的符号)。问题不在于列名,而在于实际的行值和内容。

例如,我没有打印“Variat°”或任何其他特殊字符或重音符号,而是得到了这个结果(使用 select 语句时):

Variat� cancel

信息与 session

  • Hive 表是外部的,来自 HDFS 中以字符集 iso-8859-1 编码的 CSV 文件。更改原始文件编码字符集不会产生更好的结果。

  • 我在 RedHat Enterprise 6 上使用 Hortonworks 发行版 2.2。原始 CSV 在 Linux 中正确显示。

问题

我在网上查过类似的问题,但似乎没有人遇到过。或者至少每个人在使用 Hive 时都只使用英语 :) 一些 Jiras 已经解决了 Hive 表列名称中特殊字符的问题——但我的问题是行的实际内容。

  • 如何在 Hive 中处理这个问题?
  • 在Hive中不能显示特殊字符吗?
  • Hive 是否有任何“字符集”选项?

任何帮助将不胜感激,因为我目前被困住了。提前致谢!

最佳答案

我有类似的问题,但由于我的源文件很小,所以使用 notepad++ 将其转换为 UTF-8 编码。

关于hadoop - Apache Hive 中的字符集、口音、特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29944779/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com