gpt4 book ai didi

hadoop - 过滤大数据集的最佳方式

转载 作者:可可西里 更新时间:2023-11-01 14:49:48 28 4
gpt4 key购买 nike

我有一个关于如何从大量金融交易数据中过滤相关记录的问题。我们使用 Oracle 11g 数据库,其中一项要求是生成具有各种标准的各种日终报告。

相关表格大致如下:

trade_metadata             18m rows, 10 GB
trade_economics 18m rows, 15 GB
business_event 18m rows, 11 GB
trade_business_event_link 18m rows, 3 GB

我们的一份报告现在需要很长时间才能运行(> 5 小时)。底层过程已经一次又一次地优化,但是新的标准不断被添加,所以我们又开始挣扎了。 proc 非常标准 - 连接所有表并应用大量 where 子句(最后计数为 20)。

我想知道我是否有足够大的问题来考虑大数据解决方案以摆脱这种每隔几个月优化查询的游戏。无论如何,销量只会上升。我已经阅读了一些有关 Hadoop + HBase、Cassandra、Apache Pig 等的内容,但作为这个领域的新手,我对继续进行的最佳方式有点困惑。

我想这不是 map-reduce 问题。 HBase 似乎确实提供了过滤器,但我不确定它们的性能。能否请各位大侠解答几个问题:

  1. 数据集是否足够大以支持大数据解决方案(我需要先进入十亿俱乐部吗?)
  2. 如果是,HBase 会是实现它的好选择吗?
  3. 尽管数量稳步增长,但我们不会很快放弃 Oracle。我是否正在考虑每天使用相关表中的转储来填充 HDFS?还是每天都可以进行增量写入?

非常感谢!

最佳答案

欢迎来到千变万化的大数据生态系统。如果您的数据集大小足够大,以至于对您使用传统工具进行分析的能力造成负担,那么它对于大数据技术来说就足够大了。您可能已经看到,有大量可用的大数据工具,其中许多工具具有重叠的功能。

首先,您没有提到是否有集群设置。如果没有,那么我建议通过 Cloudera 查看产品和 Hortonworks .这些公司提供的 Hadoop 发行版包括许多最流行的大数据工具(hbase、spark、sqoop 等),并且可以更轻松地配置和管理将构成集群的节点。两家公司都免费提供他们的发行版,但您必须支付支持费用。

接下来,您需要将数据从 Oracle 中取出并转换为 hadoop 集群中的某种格式以对其进行分析。通常用于从关系数据库获取数据并将其放入集群的工具是 Sqoop . Sqoop 能够将您的表加载到 HBase、Hive 和 Hadoop 分布式文件系统 (HDFS) 上的文件中。 Sqoop 还能够为更新执行增量导入,而不是加载整个表。您选择这些目的地中的哪一个会影响您在下一步中可以使用哪些工具。 HDFS 是最灵活的,因为您可以从 PIG、您编写的 MapReduce 代码、Hive、Cloudera Impala 等访问它。我发现 HBase 非常易于使用,但其他人强烈推荐 Hive。

旁白:有一个名为 Apache Spark 的项目有望替代 Hadoop MapReduce。与传统的 hadoop mapreduce 作业相比,Spark 声称速度提高了 100 倍。包括 Hive 在内的许多项目都将在 Spark 上运行,使您能够对大数据执行类似 SQL 的查询并快速获得结果 (Blog post)

现在您的数据已加载,您需要运行那些日终报告。如果你选择 Hive,那么你可以重用你的很多 sql 知识,而不是必须编写 Java 或学习 Pig Latin(并不是很难)。 Pig 将 Pig Latin 翻译成 MapReduce 作业(目前 Hive 的查询语言也是如此),但是,与 Hive 一样,Pig can target Spark以及。无论您为此步骤选择哪种工具,我都建议您查看 Oozie自动执行结果的摄取、分析和移出集群(为此使用 sqoop 导出)。 Oozie 允许您 schedule recurring workflows像您一样,这样您就可以专注于结果而不是过程。 Oozie 的全部功能都记录在案 here .

有大量的工具供您使用,这个生态系统的变化速度会让您倍受打击。 cloudera 和 Hortonworks 都提供了虚拟机,您可以使用它们来试用它们的发行版。我强烈建议花更少的时间深入研究每个工具,并尝试其中的一些工具(如 Hive、Pig、Oozie 等),看看哪种工具最适合您的应用程序)。

关于hadoop - 过滤大数据集的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26735476/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com