gpt4 book ai didi

parsing - Hadoop Informatica 日志处理

转载 作者:可可西里 更新时间:2023-11-01 16:11:04 26 4
gpt4 key购买 nike

我正在从事一个项目,该项目涉及从相当大的 Informatica 日志文件创建一组可查询的数据。为此,使用 Flume 将文件导入到 Hadoop 集群中,该集群在我开始此项目之前已由同事配置。我的工作是根据日志中包含的数据创建一个表,以便可以轻松地执行查询。我遇到的问题与日志文件格式有关。日志的格式为:

时间戳:严重性:(Pid | 线程):(服务类型 | 服务名称):客户端节点:消息代码:消息

问题是有时消息字段包含额外的冒号分隔注释,例如消息可能是 [ x : y : z ]。使用 HCatalog 创建表时,我无法解释这种行为,而是会产生额外的列。

有什么建议吗?通常我会使用 Ruby 来分隔字段或替换分隔符以在使用 HCatalog 导入时保持完整性。是否有一些预处理我可以做集群端允许我这样做?文件太大,无法在本地处理。

最佳答案

答案是使用 pig 脚本和 Python UDF。 pig 脚本加载到文件中,然后逐行调用 Python 脚本以正确拆分字段。然后可以将结果写入更友好的 CSV 和/或存储在表格中。

关于parsing - Hadoop Informatica 日志处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31120815/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com