gpt4 book ai didi

数据库和大型时间序列 - 下采样 - OpenTSDB InfluxDB Google DataFlow

转载 作者:搜寻专家 更新时间:2023-10-30 23:41:37 24 4
gpt4 key购买 nike

我有一个项目,我们每秒对“大量”数据进行采样。一些操作执行为过滤等,然后需要以秒、分钟、小时或天间隔访问。

我们目前使用基于 SQL 的系统和更新不同表格(每日平均值、每小时平均值等)的软件来执行此过程。

我们目前正在寻找是否有其他解决方案可以满足我们的需求,我遇到了几个解决方案,如open tsdb、google cloud dataflow 和 influxdb

所有这些似乎都可以解决时间序列需求,但很难获得有关内部结构的信息。 opentsdb 确实提供下采样,但没有明确说明如何。

需求是因为我们可以查询海量的数据,比如一年,如果查询时DB降采样,没有预先计算,可能需要很长时间。

同样,当添加“延迟”数据点时,也需要“更新”下采样。<​​/p>

最重要的是,在数据到达时我们执行一些处理(大纲过滤器、校准)并且这些操作不应该写在磁盘上,可以使用一些解决方案,比如基于 Ram 的数据库,但也许一些更优雅的解决方案将与以前的规范一起工作。

我相信这个应用程序不是什么“奢侈”的东西,它必须存在一些工具来执行此操作,我正在考虑股票行情、监控等。

也许您对我应该关注哪些技术/数据库有一些好的建议。

谢谢。

最佳答案

您可以使用 Google Cloud Dataflow 轻松完成此类用例。数据预处理和优化查询是 Cloud Dataflow 的主要场景之一。

我们不提供内置的“下采样”原语,但您可以轻松编写此类数据转换。如果你只是想删除不必要的数据,你可以使用 ParDo .对于非常简单的情况,Filter.byPredicate原语可以更简单。

或者,如果您正在考虑将多个数据点合并为一个,常见的模式是 window您的 PCollection 根据时间戳对其进行分割。然后,您可以使用 Combine合并每个窗口的元素。

您提到的其他处理可以很容易地添加到同一个数据处理管道中。

在比较方面,Cloud Dataflow 确实不能与数据库相提并论。数据库主要是具有处理能力的存储解决方案。 Cloud Dataflow 主要是一种数据处理解决方案,它连接到其他产品以满足其存储需求。您应该期望基于 Cloud Dataflow 的解决方案具有更高的可扩展性和灵 active ,但这也会带来更高的总体成本。

关于数据库和大型时间序列 - 下采样 - OpenTSDB InfluxDB Google DataFlow,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34431775/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com