gpt4 book ai didi

hadoop - 将文件记录到Hive

转载 作者:行者123 更新时间:2023-12-02 21:48:34 25 4
gpt4 key购买 nike

我有一个日志文件“sample.log”,如下所示:

41 Texas 2000
42 Louisiana4 3211
43 Texas 5000
22 Iowa 4998p

在日志文件中,第一列是ID,第二状态名称和第三金额。如果您看到州名,它有Louisiana4,销售总额是4998p。如何清理它,以便可以将其插入Hive(使用Python或其他方式?)。您能说明一下步骤吗?

我想插入Hive表tblSample:

表架构为:
CREATE  TABLE tblSample(
id int,
state string,
sales int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE
LOCATION '/user/cloudera/Staging'
;

要将数据加载到Hive表中,我可以这样做:
load data local inpath '/home/cloudera/sample.log' into table tblSample;

谢谢!

最佳答案

您可以将数据原样加载到配置单元表中,然后使用UDF清理数据并加载到另一个表中。这将比Python效率更高,因为它将作为mapr reduce来运行。

关于hadoop - 将文件记录到Hive,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23060078/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com