gpt4 book ai didi

hadoop - 如何使用多个 ctrl 分隔符在 pig 中加载数据

转载 作者:可可西里 更新时间:2023-11-01 15:11:03 24 4
gpt4 key购买 nike

我在 pig 中加载一个文件,分隔符为 '^A^E^A'

我尝试了以下命令,但它不起作用。

data = LOAD 'test.txt' USING PigStorage('\u0001\u0005\u0001') AS (user, time, query);

我错过了什么吗?或者有没有办法直接使用 PigStorage 指定上述分隔符?怎么办?

谢谢。

最佳答案

加载数据为 line:chararray

将“\u0001\u0005\u0001”替换为“|”或','

使用“|”分割结果行或 ',' 以生成所需的列。

data = LOAD 'test.txt' as (line:chararray);
clean_data = foreach data generate REPLACE(line,'\\u0001\\u0005\\u0001','|');
new_data = foreach clean_data generate SPLIT(clean_data.$0,'|');

关于hadoop - 如何使用多个 ctrl 分隔符在 pig 中加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40074209/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com