python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？-6ren

python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？

转载作者：可可西里更新时间：2023-11-01 16:21:17

25

4

我已经为此工作了很长时间，我感到很疲惫；我希望来自 SO 社区的 [显而易见的？] 见解可能会让我的宠物项目重新开始，这样我就可以停止踢自己了。我正在使用 Cloudera CDH3、HBase .89 和 Hadoop .20。

我有一个 Python/Django 应用程序，它使用 Thrift 接口(interface)将数据写入单个 HBase 表，效果很好。现在我想将它映射/减少到更多的 HBase 表中。

这里明显的答案是 Dumbo 或 Apache PIG，但是对于 Pig，我的版本尚不支持 HBaseStorage 适配器(Pig 能够加载类和定义，但在“映射”步骤卡住，提示“输入拆分”；Pig 邮件列表建议这在 Pig 0.8 中已修复，它与 CDH3 Hadoop 不兼容，所以我必须使用所有东西的边缘版本 [我认为])。我找不到有关如何让 Dumbo 使用 HBaseStorage 作为数据接收器的任何信息。

我不在乎它是 Python、Ruby、Scala、Clojure、Jython、JRuby 还是 PHP，我只是真的不想写 Java(出于很多原因，大多数它们涉及我每次必须将 Int() 转换为 IntWritable() 等时的下沉感。

我已经尝试了所有我能找到的(在过去 4 周内)用替代语言编写 HBase Map/Reduce 作业的最后解决方案和示例，但一切似乎都已过时或不完整。 Stack Overflow，请将我从自己的设备中解救出来!

最佳答案

这不是一个准确的答案，但这是我得到的最接近的答案 --

我昨天在 irc.freenode.net 上的#hbase 中提问，一位 Cloudera 员工做出了回应。我在 Pig 上遇到的“输入拆分”问题是 Pig 0.7 特有的，Pig 0.8 将与 Cloudera CDH3 Beta 4 捆绑在一起(没有 ETA)。因此，我想做的事情(使用 HBase 表作为接收器和源轻松编写 M/R 作业)将在他们的下一个版本中成为可能。 HBaseStorage 类似乎也将得到普遍改进，以帮助从任何 JVM 语言进行读/写操作，同时使 Jython、JRuby、Scala 和 Clojure 都变得更加可行。 p>

所以这个时候问题的答案是“等待 CDH3 Beta 4”，或者如果你不耐烦，“下载最新版本的 Pig 并祈祷它与你的 HBase 兼容”

关于python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4557045/

25

4

0

文章推荐： c++ - 在 OpenGL 中快速画线

文章推荐： Java + Hadoop + NoSql(使用什么组合)

java - 最简单/最简单的浏览器游戏引擎是什么？
我制作手机游戏，但我想为我的社交游戏制作一些简单的基于浏览器的客户端，以便我们可以更轻松地调试。最简单的引擎是什么？我研究了一些 HTML5 引擎和 GWT，但我想听听社区的意见。我正在寻找一种能够
php - 最简单、最小的PHP账户系统
有一个有趣的例子，有人设法为一个只占用 1kb 的论坛创建了一个 PHP 脚本:http://www.nerdparadise.com/blogs/blake/6034/ 我想知道是否有类似的小脚本可
python中yield的用法详解——最简单，最清晰的解释
首先我要吐槽一下，看程序的过程中遇见了yield这个关键字，然后百度的时候，发现没有一个能简单的让我懂的，讲起来真tm的都是头头是道，什么参数，什么传递的，还口口声声说自己的教程是最简单的，最浅显易
android - 什么是最安全，最简单，最通用的proguard配置？
我的proguard配置太糟糕了，我的游戏崩溃了，而且似乎不正常。在我弄清楚到底哪里出了问题之前，最简单，最安全的配置用于全部安装是什么？有没有办法使它仅更改变量名？或者只是混淆代码以使其更难阅读而不
scripting - 获取两个文件之间的相对路径的最佳/最简单/最快的方法？
我正在重构一些 C# 代码，其中一部分是重做一些引用，因为我们正在完全重做文件夹结构。我想做的就是进入 .csproj 或 .sln 文件并修改路径。然而，一些引用文献有类似的路径 "../../.
algorithm - 最简单(和正确)的转义算法是什么？
免责声明:这是一个理论问题，目的是增加我的理解。我知道我总是可以使用像 JSON 库这样的工具来解决问题。假设我想创建一个逗号分隔的值列表，这些值本身可能包含逗号。这些逗号需要先转义。假设我使用 .
delphi - 学习 Delphi 最简单/最有效的方法是什么？
我对编程完全陌生，我选择 Delphi 作为我想学习的编程语言。我基本上想构建使用套接字填写和提交 Web 表单的工具，并且我希望它们也是多线程的。我希望它们功能丰富且性能正确。我并不急于这样做
java - Java中的协作工具-在客户端之间共享数据的最佳(最简单)体系结构？
我正在构建一个协作创作工具，该工具允许用户共同编辑信息空间，该信息空间是节点和链接的可视化。一个客户端应用程序中所做的更改需要反映到所有其他客户端中。由于它是可视化的，因此可能需要经常更新潜在的大数据
php - 对于程序员团队来说，哪种企业级开源 CMS 的学习曲线最陡(最简单)？
作为一家专门开发自定义 CMS 的公司，我们被要求在下一个项目中部署开源 CMS。我们可以自由选择系统。对于熟悉 PHP5 中的 MVC 模型和 OOP 的团队，您会推荐什么？有人告诉我Drupa
java - 在 Java 中检查一段文本是否为垃圾邮件的最佳、最简单、免费的方法是什么？
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
ember.js - Ember.js 最简单/最简单的后端解决方案是什么？
我完全是 Ember.js 菜鸟，需要了解后端注意事项，目前似乎很少有教程涵盖。对于快速原型(prototype)设计，最简单/最简单的后端设置是什么？我看到了一些 ember-rails 教程，但是
java - 最简单、最轻量级的 Java Web 服务引擎？
我正在寻找这种最简单、最简单的方法来启动 Java Web 服务。我曾经使用 Axis-1-on-Tomcat，但是对于 Axis 2，它变得太厚了。我正在寻找的一些偏好: 低内存占用 - 一个包含最
cocoa - 最简单、简约、opengl 3.2 cocoa项目
我多年来一直使用旧版 openGL 和 cocoa，但现在我正在努力过渡到 openGL 3.2。互联网上有几个例子，但它们都太复杂了(许多甚至在 XCode 5.1 下不再编译)。有人可以编写一个最
javascript - 在不使用本地存储的情况下，在手机上存储复选框状态 7 天的最佳(最简单)方法是什么
我正在构建一个简单的应用程序，它应该将开关/支票簿的状态存储 7 天。我遇到的唯一问题是我用来构建所述应用程序的网站不适合手机上的本地存储。没有通过本地存储或链接到在线数据库来存储开关/支票簿状态的良
c++ - 在 C/C++ 上传输数据的最佳(最简单)方法是什么
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 7 个月前。 Improv
c++ - 创建一组 1 个元素的最佳\最简单\最快的方法是什么？ (C++)
有时我需要 1 个用户类型元素的集合(或任何其他容器)并以这种方式创建它们: boost::assign::list_of(typeVariable).convert_to_container >()
asp.net - ASP.NET 最简单/最佳的隐藏/显示客户端隐藏/显示
我的页面上有一个 DropDownList 和一个 TextBox。当用户在 DropDownList 中选择“其他”选项时，我想在其右侧显示一个文本框。我不想使用传统的回发技术。我希望这种交互是在客
html - 制作登录/注册表单的最正确/最简单/最常用/最干净的方法(Divs/其他)
说到编码，我还很年轻，而且我听说过很多关于组织的事情。有些使用部分，有些使用 div，有些使用 div 作为按钮，其他使用 css 中的输入来更改它。作为一个喜欢让他的代码干净、简单易懂但又正确的人，
java - 将 ContentValues 转换为 JSON 字符串的最佳(最简单)方法是什么？
我需要将带有变量项的 ContentValues 转换为 JSON 字符串，我可以将其保存到数据库中，并在以后用作 HTTP 请求的正文。网络上的所有内容都只会以相反的方向进行转换。最佳答案每当您
python - (最简单)在同一台计算机上使用 Python 3.6 和 3.7 的方法？
我的电脑上安装了 Python 3.7。想用tensorflow，发现基本不支持3.7，所以想(也)安装Python 3.6。关于如何做到这一点有什么建议吗？我是否必须卸载 3.7 并将其替换为 3

首页

博学

6Ren·AI

商城

python - 在 CDH3 上编写 HBase MapReduce 的最简单的非 Java 方法？