gpt4 book ai didi

java - 从 Scala(或 Java)访问 HBase 的替代方案

转载 作者:可可西里 更新时间:2023-11-01 14:25:06 26 4
gpt4 key购买 nike

谁能推荐好的解决方案(框架)来访问HBaseHadoop来自 Scala 的集群(或 Java )申请?

现在我要搬进了scalding方向。我获得的原型(prototype)允许我将 scalding 库与 Maven 结合起来并将 scalding 作业 JAR 与“库”代码包分开。这反过来又允许我从外部集群运行基于 Scalding 的 Hadoop 作业,每个作业的开销最小(“库”代码仅在更改时(很少需要)发布到集群“分布式缓存”,因此我可以快速加载作业代码) .

现在我实际上开始使用 HBase 本身,我发现 scalding 很好,但它不是 HBase 的“原生”。是的,有类似 hbase-scalding 的东西但无论如何,我有一些要点来计划 future 的行动,我想知道我可能错过的其他好的解决方案。

预期的结果:

  • 应用程序(工作)的启动开销应该很低。我需要运行很多。
  • 应该可以(更容易 - 更好)在没有任何 SSH 的情况下从外部集群运行作业(仅基于“hadoop jar”命令,甚至仅通过应用程序执行)。
  • 工作语言本身应该允许简短的、符合逻辑的语义。理想情况下,此代码应该足够简单,可以自动生成。
  • 此解决方案在足够大的 HBase 表(最初最多 100.000.000 个条目)上应该是高效的。
  • 好的,解决方案应该是“实时的”(正在积极开发中),但在总体稳定性方面相对较好。

我认为这里的论证可能比解决方案本身更有用,这个问题应该为许多人增加一些想法。有什么建议吗?

最佳答案

如果您使用的是 scalding(我推荐),那么有一个新项目包含更新的级联和 scalding 包装器,用于访问 HBase。您可能想检查一下 - https://github.com/ParallelAI/SpyGlass

关于java - 从 Scala(或 Java)访问 HBase 的替代方案,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16045543/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com