hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？-6ren

hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？

转载作者：可可西里更新时间：2023-11-01 14:22:08

28

4

我正在处理概念验证任务。任务是使用 Hadoop 技术实现我们产品的一项功能。

功能非常简单，我们有一个 UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到 Oracle 数据库中的表中。然后，我们处理此表中的数据并计算健康评分。

我必须使用 Hadoop 而不是传统的 Db 所以我的问题是要做什么？HDFS 上的黑斑羚？要么Hbase 上的黑斑羚？要么Hbase?

我正在使用 cloudera VM 进行 POC 实现。

按照我的理解，Hbase是NoSQL分布式数据库，其实是HDFS之上的一层，提供java API来访问数据。Impala 是一种工具，它还提供 JDBC 访问以通过 Hbase 或直接通过 HDFS 访问数据。我是 hadoop 的新手，有人可以帮忙吗？

最佳答案

好吧，这取决于几件事，比如您要执行的处理类型、所需的响应时间等。但是通过查看您在此处编写的内容，HBase 似乎没问题。到目前为止，我还没有发现任何需要 Impala 的地方。 HBase API 很好，可以满足您的大部分需求。

恕我直言，最好在一开始就保持简单，只有在确实需要时才添加工具。同样适用于此。如果您发现 HBase API 无法满足您的目的，您绝对可以将 Impala 添加到您的堆栈中。

话虽这么说，但您应该牢记一件事。 HBase 是一个 NoSQL 数据库，不遵循 RDBMS 约定和术语。所以，一开始你可能会觉得有点奇怪。最好记住这一点然后继续，因为您必须以一种完全不同于 RDBMS 模式设计风格的方式设计模式。

关于hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17541226/

28

4

0

文章推荐： hadoop - 如何处理 inputsplit 的多行记录？

文章推荐： hadoop - 如何保证 combiner 在 map/reduce 中至少运行一次？

文章推荐： hadoop - 我在哪里可以找到旧版本的 hadoop？

hdfs - HDFS 文件如何存储在底层操作系统文件系统上？
HDFS 是 Hadoop 中的逻辑文件系统，块大小为 64MB。 HDFS 上的文件依次保存在底层操作系统文件系统上，比如 ext4，块大小为 4KiB。据我所知，对于本地文件系统上的文件，操作系
hadoop - HDFS 占用空间 : "hdfs dfs -du/" vs "hdfs dfsadmin -report"
哪种工具最适合测量 HDFS 空间消耗？当我总结“hdfs dfs -du/”的输出时，与“hdfs dfsadmin -report”(“DFS Used”行)相比，我总是消耗更少的空间。是否有
hdfs - 将 HDFS 校验和与本地文件系统校验和进行比较
我正在尝试编写一个简单的脚本来验证 HDFS 和本地文件系统校验和。在 HDFS 上我得到 - [m@x01tbipapp3a ~]$ hadoop fs -checksum /user/m/fil
hdfs - 如何从 HDFS 恢复已删除的文件夹
我从 HDFS 中删除了一个文件夹，我在下面找到了它 /user/hdfs/.Trash/Current/ 但我无法恢复它。我查看了论坛，但没有找到好的解决方案。请有人有解决方案我可以帮助我如何在最
hdfs - Presto hdfs 本地读取和预聚合
在 5 个节点的集群上运行 Presto 大型扫描查询，看起来只有一个节点是查询协调器，并通过网络从 5 个 hdfs 节点读取数据。所有 presto 进程都在数据节点上运行。有没有办法让5个节
hdfs - 将文件放在名称中有空格的 HDFS 上
我有一个名为 file name(1).zip 的文件(里面有空格和括号)，我想把这个文件放在 HDFS 上。但是每次我尝试通过 hadoop fs -put ... 放置它时，我都会遇到异常。我什
hdfs - Presto hdfs 本地读取和预聚合
在 5 个节点集群上运行 Presto 大扫描查询，看起来只有一个节点是查询协调器，并通过网络从 5 个 hdfs 节点读取数据。所有presto进程都在数据节点上运行。有没有办法让5个节点使用s
hadoop hdfs 指向文件 :///not hdfs://
所以我在 CentOS 5 上通过 Cloudera Manager cdh3u5 安装了 Hadoop。当我运行 cmd 时 hadoop fs -ls/ 我希望看到 hdfs://localhos
hadoop - HDFS 错误 + 不完整的 HDFS URI，没有主机 : hdfs://l27. 0.0.1:9000
我用命令在hadoop上运行flume flume-ng agent -c conf -f conf/flume-twitter.conf -n TwitterAgent 现在我无法保存推特数据。它显
hadoop - 在 HDFS 的联邦中将数据从本地磁盘复制到 HDFS
我使用两台主机(hadoop-coc-1 和 hadoop-coc-2)尝试在其中配置 HDFS 联合。因此，我在两个主机(hadoop-coc-1 和 hadoop-coc-2)中配置了 $ cat
hadoop - 将大量文件从 hdfs 移动到 hdfs
我需要将大量文件从一个 hdfs 目录移动(而不是复制)到同一集群中的另一个 hdfs 目录。我可以使用 distcp，但它似乎有点矫枉过正，因为它正在复制文件(复制它)我只想移动它。两个问题: A
hadoop - 无法将文件写入 hdfs - 在安全模式下出现错误 hdfs
当我尝试将文件从我的本地目录复制到 HDFS 时，出现以下错误: [cloudera@localhost ~]$ hadoop fs -copyFromLocal hello.txt /user/
hadoop - HDFS 到 HDFS 完全强制移动文件
据我所知，在从一个 HDFS 位置移动到另一个位置时，没有直接选项可以覆盖 HDFS 中的文件，复制 cp 可以选择强制执行。我试图找出是否有任何黑客可以做到这一点？我们能做的是 hdfs dfs
hadoop - 如何将数据从一个 HDFS 复制到另一个 HDFS？
我有两个 HDFS 设置，想将一些表从 HDFS1 复制(而不是迁移或移动)到 HDFS2。如何将数据从一个 HDFS 复制到另一个 HDFS？是否可以通过 Sqoop 或其他命令行实现？最佳答案
hdfs - Kafka Storm HDFS/S3 数据流
目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。我想让 Kafka 将数据保存到 HDFS 或 S3，并将该数据的副本发送到 Storm 进行实时处理。 Storm
hdfs - 作为 EMR 步骤运行 HDFS 命令
如何发出 hdfs 命令作为 EMR 集群中的一个步骤？将步骤添加为 script_runner.jar 任务似乎奇怪地失败了。最佳答案使用 command-runner.jar 并调出 bash
hdfs - 作为 EMR 步骤运行 HDFS 命令
如何发出 hdfs 命令作为 EMR 集群中的一个步骤？将步骤添加为 script_runner.jar 任务似乎奇怪地失败了。最佳答案使用 command-runner.jar 并调出 bash
hadoop - 尝试更新 HDFS 中的文件时 HDFS 路径发生变化
我是 Hadoop 和 HDFS 的新手，所以当我从本地 (Ubuntu 10.04) 复制到本地主机上单个节点上的 HDFS 时，可能是我做错了什么。初始副本工作正常，但当我修改我的本地输入文件夹并
hadoop - 如何更改 hdfs 用户的 HDFS 用户主目录？
根据我在 Hadoop HDFS 上的实践，我了解到在创建用户 say u1 并尝试将文件从本地文件系统放入 HDFS 时，它会搜索目录 /user/u1 (默认情况下)对 HDFS 文件系统具有写入
hadoop - HDFS 将本地文件放入 hdfs 但出现 UnresolvedAddressException
我想将一个 70G 的文件放入 hdfs，所以我使用“put”命令来完成此操作。但是，我得到以下异常。我用相同的命令尝试了小尺寸文件，它有效。有谁知道是什么问题？谢谢! WARN [DataStre

首页

博学

6Ren·AI

商城

hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？