gpt4 book ai didi

mysql - 记录大量印象数据(5000 万条记录/月)

转载 作者:可可西里 更新时间:2023-11-01 15:31:16 27 4
gpt4 key购买 nike

我们目前正在使用 MySQL 记录几个网站的印象数据,并正在寻找更合适的替代方法来记录我们网站现在看到的大量流量。我们在 MySQL 数据库中最终需要的是聚合数据。

我所说的“高容量”是指我们每月为此展示数据记录大约 5000 万条条目。请务必注意,此表事件几乎完全是写入,很少读取。 (不同于 SO 上的这个用例:Which NoSQL database for extremely high volumes of data)。我们通过按范围对数据进行分区和执行批量插入解决了一些 MySQL 性能问题,但总的来说,我们不应该使用 MySQL。

我们最终在 MySQL 数据库中需要的是聚合数据,我相信还有其他技术更适合此用例的大容量日志记录部分。我读过 mongodb , HBase (与 map reduce ),Cassandra , 和 Apache Flume我觉得自己走在正确的轨道上,但需要一些关于我应该关注哪些技术(或组合)的指导。

我特别想知道什么平台最适合大容量日志记录,以及如何每天将聚合/缩减数据集输入 MySQL。

最佳答案

Hive 不存储信息,它只允许您使用类似 sql 语言 (HQL) 查询“原始”数据。

如果您的聚合数据足够小,可以存储在 MySQL 中,并且这是您数据的唯一用途,那么 HBase 对您来说可能太多了。

我的建议是使用 Hadoop(HDFS 和 MapReduce

  1. 创建包含印象事件的日志文件(文本文件)。
  2. 然后将它们移动到 HDFS(如果您需要近乎实时的解决方案,可以使用 kafka 或 storm 作为替代方案)。
  3. 创建一个能够读取和聚合日志的 MapReduce 作业,并在 reduce 输出中使用 DBOutputFormat 将聚合数据存储到 MySql 中。

关于mysql - 记录大量印象数据(5000 万条记录/月),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32489888/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com