gpt4 book ai didi

google-bigquery - Bigtable(或 BigQuery)是日志关联分析的正确平台吗?

转载 作者:行者123 更新时间:2023-12-01 13:49:50 25 4
gpt4 key购买 nike

我面临着根据以下要求分析不同系统日志文件的挑战:

  • 数百个系统
  • 每天有数百万条不同格式的日志

除了许多其他目标之外,我最大的挑战是对所有当前系统日志以及部分历史日志事件的所有传入日志进行实时关联分析。

目前,我们专注于 MongoDB、ElasticSearch、Hadoop 等,以应对这一挑战。

另一方面,我阅读了一些有关 Google Bigtable 和 Bigquery 的有趣内容。

所以我的问题是,为了进行这种实时分析,Bigtable 和/或 Bigquery 是否是一个值得关注的解决方案?

我没有使用这两种产品的经验,因此我希望得到一些提示,看看这些 Google 解决方案是否可以替代我的要求。

谢谢驱动

编辑:

too broad. you need to show actual analisis you need to make. bigquery will be much much cheaper that homemade with nosql

我们的目标是开发一个系统,该系统能够根据当前日志事件(或不同日志事件的组合)及其过去对其他系统行为的交互生成警告。

因此,我们必须能够针对当前事件与大量非结构化历史数据进行快速关联分析。

我知道这个需求描述可能不是最具体的,但我们正处于这个项目的开始阶段。所以我提出这个问题的目的是为我们的下一次团队 session 提供一些论据,我们是否应该考虑仔细研究 Bigtable/Bigquery。

最佳答案

我最喜欢的 BigQuery 功能之一是它能够运行关联。

这是我几年前写的与 BigQuery 教程的相关性:http://nbviewer.ipython.org/gist/fhoffa/6459195

例如,根据航类延误对机场进行排名并找到最相关的机场:

SELECT a.departure_state, b.departure_state, corr(a.avg, b.avg) corr, COUNT(*) c
FROM
(SELECT date, departure_state, AVG(departure_delay) avg , COUNT(*) c
FROM [bigquery-samples:airline_ontime_data.flights]
GROUP BY 1,2 HAVING c > 5
) a
JOIN
(SELECT date, departure_state ,
AVG(departure_delay) avg, COUNT(*) c FROM [bigquery-samples:airline_ontime_data.flights]
GROUP BY 1,2 HAVING c > 5 ) b
ON a.date=b.date
WHERE a.departure_state < b.departure_state
GROUP EACH BY 1, 2
HAVING c > 5
ORDER BY corr DESC;

在接下来的 5 分钟内自己尝试一下!快速入门教程:https://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/

关于google-bigquery - Bigtable(或 BigQuery)是日志关联分析的正确平台吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32780913/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com