gpt4 book ai didi

python - 将日志文件放入 Hive

转载 作者:可可西里 更新时间:2023-11-01 15:02:50 24 4
gpt4 key购买 nike

我有一个非结构化文件,其中包含如下数据:

文件.日志:

2014-03-13 US Texas   334    4.985
2014-03-13 US Minnesota 534 6.544

日志文件不是制表符分隔的,因为有些字段是制表符分隔的,有些不是。

如何将其放入 Hive 表中?

Hive 表架构是:

创建表文件(日期事实字符串、国家字符串、州字符串、id int、值字符串);

如何使用 Python 和/或 Hadoop 命令将日志文件加载到 Hive 表中?

谢谢!

最佳答案

这个问题可能是重复的。

请检查这个link还有这个blog .

根据上面2个链接,不能有多个分隔符,不支持。

但是有一个变通办法。它可以通过使用 RegExSerde 来实现。

您需要为您的业务需求找出一个正则表达式模式,并将其保存在 serde 属性中。

关于python - 将日志文件放入 Hive,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22596126/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com