gpt4 book ai didi

hadoop - 大量交易数据信息模式生成

转载 作者:可可西里 更新时间:2023-11-01 16:18:53 26 4
gpt4 key购买 nike

我正在尝试从大量交易数据中找出信息丰富的数据模式。

通常我的数据是一组具有明确定义的列的记录(例如发件人、收件人、金额、货币地址等 - 我有大约 40-50 个不同的列),数据量将是数百万(可能是数百万)条记录我的目标是从中生成信息丰富的交易模式 - 谁购买特定商品最多,交易量最高的收件人,费用模式,谁从同一个发件人那里获得更多交易等。

早些时候,我计划将数据加载到关系数据库 (Oracle/MySQL) 中并编写复杂的 SQL 来获取这些信息,但是通过在概念验证过程中查看容量,它似乎没有太大的可扩展性。

我试图获得有关使用 Hadoop 等进行分布式数据处理的更多信息。我刚开始阅读 Hadoop,据我初步了解,Hadoop 非常适合非结构化数据处理,可能对关系数据处理没有多大用处。

关于我可以快速试验的开源技术的任何指示/建议。

最佳答案

Hadoop 可用于结构化/非结构化数据处理。此外,它不是维护关系的数据库,也不是像传统 RDBMS 那样的索引。

有数百万行 HBaseCassandra加上/不加上Hive可用于批量查询。 Hadoop 中的批量查询已经存在了一段时间并且已经成熟。

用于交互式查询DrillImapala可以使用。请注意,Drill 开发刚刚开始,处于孵化器阶段。而 Imapala 刚刚由 Cloudera 宣布。这是 some有趣info用于实时引擎。

请注意,还有许多其他开源框架可能符合要求,但此处仅提及其中几个。基于详细的需求分析和不同框架的优缺点,必须选择合适的框架。

关于hadoop - 大量交易数据信息模式生成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13059734/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com