gpt4 book ai didi

encoding - 在 Hive 中使用 Icelandic Thorn 字符作为分隔符

转载 作者:可可西里 更新时间:2023-11-01 14:50:33 27 4
gpt4 key购买 nike

我目前正在尝试将一些 DoubleClick 广告日志导入 Hadoop。

这些日志存储在一个 gzip 分隔文件中,该文件使用第 1252 页(Windows-ANSI?)进行编码,并使用 Icelandic Thorn 字符作为分隔符。

我可以愉快地将这些日志导入到一个列中,但我似乎找不到让 Hive 理解 Thorn 字符的方法 - 我想可能是因为它不理解 1252 编码?

我查看了创建表文档 - http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html - 但似乎无法找到任何方法来使此编码/分隔符正常工作。

我还从 https://karmasphere.com/karmasphere-analyst-faq 看到了建议这些文件的编码是 ISO-8859-1 - 但我不知道如何在 Hive 或 HDFS 中使用该信息。

我知道我可以在导入后执行 map 作业以将这些行拆分为多条记录。

但是有没有更简单的方法直接使用这个定界符呢?

谢谢

斯图尔特

最佳答案

使用'\-2'char 是一个带符号的字节。

显然 hive 开发者不认为这是一个问题: https://issues.apache.org/jira/browse/HIVE-237

关于encoding - 在 Hive 中使用 Icelandic Thorn 字符作为分隔符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12833866/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com