gpt4 book ai didi

logging - 如何在hadoop中查询日志文件

转载 作者:行者123 更新时间:2023-12-02 21:48:00 24 4
gpt4 key购买 nike

我在HDFS中有一个日志文件,需要对其进行处理以找出最大值。到达网页,网址等
数据如下:

10.223.157.186 - - [15/Jul/2009:14:58:59 -0700] "GET / HTTP/1.1" 403 202
10.223.157.186 - - [15/Jul/2009:14:58:59 -0700] "GET /favicon.ico HTTP/1.1" 404 209
10.223.157.186 - - [15/Jul/2009:15:50:35 -0700] "GET / HTTP/1.1" 200 9157
10.223.157.186 - - [15/Jul/2009:15:50:35 -0700] "GET /assets/js/lowpro.js HTTP/1.1" 200 10469
10.223.157.186 - - [15/Jul/2009:15:50:35 -0700] "GET /assets/css/reset.css HTTP/1.1" 200 1014
10.223.157.186 - - [15/Jul/2009:15:50:35 -0700] "GET /assets/css/960.css HTTP/1.1" 200 6206
...............................

我该如何处理这些数据?是否可以将其放在Hive中?如果是,那怎么办?还是mapReduce是更好的选择?
请指导。

最佳答案

hive 是一个不错的选择。

您可以通过两种明确的方法在配置单元中执行此操作。 1)编写一个自定义的SerDe来解析日志行,或者2)编写一个使用hive的内置字符串UDF(主要是regexp_extract)来解析组件的hive View 。

编写SerDe可能会更高效,并且总体上来说是更好的方法,但是编写起来有点棘手的代码。

关于logging - 如何在hadoop中查询日志文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23486265/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com