hadoop - HIVE 分隔符\n ^M 问题-6ren

hadoop - HIVE 分隔符\n ^M 问题

转载作者：可可西里更新时间：2023-11-01 14:21:48

25

4

我有一个文件，其列由 ^A 分隔，行由 '\n' 换行符分隔。

我首先将它上传到 HDFS，然后使用如下命令在 Hive 中创建表:

CREATE EXTERNAL TABLE 
IF NOT EXISTS 
html_sample 
( ts string, 
  url string, 
  html string) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\001' 
LINES TERMINATED BY '\n' 
LOCATION '/tmp/directoryname/';

但是，当我为该表执行 select 语句时。原来是一团糟。

表格如下所示:

ts              url                    html
10082013        http://url.com/01      <doctype>.....style="padding-top: 10px;
text-align...   NULL                   NULL 
text-align...   NULL                   NULL
text-align...   NULL                   NULL
10092013        http://url.com/02      <doctype>.....style="padding-top: 10px;
text-align...   NULL                   NULL 
text-align...   NULL                   NULL
text-align...   NULL                   NULL

然后我回到文本文件，发现文件中存在几个 ^M 字符，这使得 HIVE 将 ^M 视为换行符。

当我第一次创建文件时，我特意从 html 中删除了所有换行符，以保证每条记录都是一行。但是，我只是无法理解 HIVE 究竟如何将 ^M 视为换行符。我怎样才能在不修改我的文件的情况下解决这个问题。

(我知道在 VI 或 sed 中进行全局替换是可能的……但对我来说这没有多大意义，HIVE 如何将 ^M 视为\n)

最佳答案

^M 是 Vim 显示 Windows 行尾的一种方式。这里有更多关于这个: What does ^M character mean in Vim?

Hive 反过来使用 TextInputFormat，它恰好将其视为有效的行终止符。

根据您使用的 Hadoop 和 Hive 的版本，可以有不同的方法来克服这个问题(从更改配置中的属性到自定义 InputFormat 实现)。

只需找到一种明确指定分隔符的方法即可。

是的，LINES TERMINATED BY '\n' 并不像它看起来的那样。我正在使用 Hive 0.11 并且唯一可能的值实际上是 '\n' 但它没有提升为 TextInputFormat

关于hadoop - HIVE 分隔符\n ^M 问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19211924/

25

4

0

文章推荐： windows - 当用户创建挂载点时如何获得通知？

文章推荐： windows - 线程排序服务场景

文章推荐： java - Base64数据流解码

Haskell (a -> m a) -> m (a -> a) -> m (a -> a)
在过去的几个月里，我一直在研究 Haskell，我遇到了一个我不太确定如何处理的单子(monad)的情况。我有一个 a -> m a 类型的值第二个类型为 m (a -> a)我需要对它们进行组合，
Haskell - 是否有扩展的 monad 类型 [ m (a -> m b) -> m a -> m b ]
仿函数有 (a -> b) -> m a -> m b 应用程序有 f (a -> b) -> f a -> f b Monad 有 m a -> (a -> m b) -> m b 但是，是否有扩展
haskell - 单子(monad) m => a -> [a -> m a] -> m a
我是 Haskell 的新手，我想知道是否有比 Hoogle 更好的方法来确定一个库功能是否重复？举个例子:我有很多函数f :: Monad a => a -> m a我想链接在一起，比如 f123
arrays - 将列表的 (m,m,n) 数组组合成一个 (m,m,n) 数组
将存储在一系列列表中的 m、m、n 维数组组合成一个 m、m、n 维数组的方法是什么？示例: 这是三个包含 m,m,n 维数组的列表: list1 <- array (1, dim = c(5, 5
haskell - 编写函数 (a -> b -> ... -> t) -> (Monad m => m a -> m b -> ... -> m t)
有没有办法写一个函数f::(a -> b -> ... -> t) -> (Monad m => m a -> m b -> ... -> m t )，基本上是 liftMn 对于任何 n？ (编辑:
python - 如何将 m×m 数据帧转换为 pandas 中的 m*m×3 数据帧？
我有一个像这样的 pandas 数据框: df = pd.DataFrame({'A':[1,3,2,9],'B':[2,1,2,7],'C':[7,2,4,6],'D':[8,1,6,4]},ind
haskell - 如何定义签名为 h::M Int -> M Int -> M Int 的函数，以便 h (M x) (M y) = M (x+y) 而不解开 monad？
这个问题来自文章“Trivial Monad”，地址:http://blog.sigfpe.com/2007/04/trivial-monad.html 。提供的答案是 h x y = x >>= (
haskell - haskell中有 `m a -> (a -> m b) -> m a`函数类型吗？
所以>>= :: m a -> (a -> m b) -> m b和>> :: m a -> m b -> m b . 而 f b -> f a . 但我想要一些能m a -> (a -> m b)
algorithm - 写成[(m + n)^m]/m有效吗!作为 O([n/m]^m) 作为其宽松的上限？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 3 年前。 Improve
raku - 什么是 nqp、nqp-m、rakudo-debug、rakudo-debug-m、rakudo-gdb-m、rakudo-m、rakudo-valgrind-m？
当我安装 rakudo来源: $ git clone git@github.com:rakudo/rakudo.git $ cd rakudo $ perl Configure.pl --gen-mo
proof - 在 Idris 中证明如果 n = m 且 m = o，则 n + m = m + o？
我正在尝试通过查看一些练习来提高我的 Idris 技能 Software Foundations (最初是为 Coq 设计的，但我希望对 Idris 的翻译不会太糟糕)。我在使用 "Exercise:
javascript - 你能加密1(m)、加密2(E1(m)、解密1(E2(E1(m))) 和解密2(E2(m)) 吗？
我想知道以下是否可行。与服务器交换密码时，应保护密码。因此，用户可以使用生成的 key kUser 来加密密码。 Encrypt(m, kUser) 生成加密消息 eU(m)。现在用户将此信息发送到
SQL:这两个表之间存在什么样的关系(1:1、1:m、m:m、...)？
这两个表之间存在什么样的关系(1:1、1:m、m:m，等等)？ CREATE TABLE IF NOT EXISTS `my_product` ( `id` int(11) NOT NULL au
haskell - foldMap::(Monoid m) => (a -> m) -> f a -> m 类型是什么意思以及如何实现它？
有人可以解释类型的含义以及如何实现吗？ class Foldable f where foldMap :: (Monoid m) => (a -> m) -> f a -> m 基于 https:
c# - c# 如何找出 "m"来自 (m => m.SomeProperty)？
例如，在 MVC 应用程序中，我可以使用 Html 助手来创建这样的标签: @Html.LabelFor(m => m.ProductName) 我没有在任何地方声明变量“m”，但 IDE 会自动找出
operator-overloading - C++11 重载 `M operator+(M&&,M&&)`
更新:澄清、更明确的重点和缩短的示例: 我可以避免 M op+(M&&,M&&) 过载吗？假设，我想很好地处理 RValues？我想其他三个重载是必需的。我首先使用 (&&,&&) 重载的原因: 通
r - 对 n*m 矩阵的所有列组合进行函数运算，生成 m*m 结果
假设我有一个函数，它接受两个向量并返回一个整数，例如一个向量中也存在另一个向量中的元素数量。喜欢: f m [,1] [,2] [,3] [1,] "c" "i" "c" [2,] "
python 正则表达式子％H :%M:%S to %M:%s or 01:%M:%s
我想将字符串(字幕)转换为: 585 00:59:59,237 --> 01:00:01,105 - It's all right. - He saw us! 586 01:00:01,139 -->
algorithm - 如何计算(1+a%m+a^2%m……+a^n%m)的总和
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用，以及预
linux - 转换 d.m.Y h :m:s to Y-d-m h:m:s for a large file in linux
是否可以将 Linux 中的大文件将 d.m.Y h:m:s 转换为 Y-d-m h:m:s？示例数据 "30.07.2016 00:00:00",DN123,PAPN,PAPN,TEST,9189

首页

博学

6Ren·AI

商城