hadoop - hbase 跳过区域服务器直接从 hfile 读取行-6ren

hadoop - hbase 跳过区域服务器直接从 hfile 读取行

转载作者：可可西里更新时间：2023-11-01 15:56:35

26

4

我正试图将超过 100 亿条记录转储到 hbase 中，这将平均每天增长1000万，然后尝试一个完整的表扫描记录。我知道对 hdfs 进行全面扫描会比hbase快。
Hbase 用于对不同的数据进行排序在高清文件系统上。该应用程序正在使用 spark 构建。
数据被批量加载到 hbase 中。由于各种 2G 限制，区域大小从 3G 的初始测试减少到 1.2G(仍然需要更详细的调查)。
扫描缓存为 1000 且缓存 block 关闭
hbase 总大小在 6TB 范围内，在 5 个区域服务器(节点)上产生数千个区域。 (建议低百)。
Spark 作业基本上运行每一行，然后根据范围内的列计算某些内容。
使用内部使用 TableInputFormat 的 spark-on-hbase，作业在大约 7.5 小时内运行。
为了绕过区域服务器，创建了一个快照并改为使用 TableSnapshotInputFormat。该工作在大约 5.5 小时内完成。

问题

从 hbase 读取到 spark 时，区域似乎决定了spark-partition 和 2G 限制。 Hence problems withcaching这是否意味着区域大小需要较小？
绕过区域服务器的 TableSnapshotInputFormat 和直接从快照中读取，还按区域创建它所以还是会落入上面的region size问题。这是可以直接从 hfiles 中读取键值，在这种情况下拆分大小由 hdfs block 大小决定。有没有可以读取一行的扫描仪或其他实用程序的实现直接来自 hfile(具体来自快照引用的 hfile)？
是否有任何其他指示说明可能有助于提高性能的配置？例如 hdfs block 大小等？主要用例大部分是全表扫描。

最佳答案

事实证明，这实际上非常快。性能分析表明，问题在于 ip 地址的对象表示之一，即 InetAddress 花费了大量时间来解析 ip 地址。我们决定使用原始字节来提取我们需要的任何东西。这本身使工作在大约 2.5 小时内完成。将问题建模为 Map Reduce 问题并在 MR2 上运行具有相同的上述更改表明它可以在大约 1 小时 20 分钟内完成。迭代性质和更小的内存占用帮助 MR2 实现更多的并行性，因此速度更快。

关于hadoop - hbase 跳过区域服务器直接从 hfile 读取行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42945093/

26

4

0

文章推荐： c++ - 在Win10上用VS2015编译的C++ SDL2程序调试加载时间错误

文章推荐： hadoop - 使用 apache ignite 在 hdfs 上写一个文件

C 直接/显式传递参数
如果我在 C 中调用一个函数并传入一个结构(对那些 C++ 读者来说不是通过指针或引用)，它会复制该对象。如果我传入一个包含数组的结构，它会复制该数组(如教授在类里面所说)。但是，如果我传入一个包含对
vim - 如何*直接*增加光标下的数字？
在 vim 等中，您可以使用 CTRLA 和 CTRLX 增加或减少光标所在的数字。然而，这会增加总数，但我想简单地增加光标正下方的数字。这有点难以描述，所以这就是我的意思: Ctrl+A usage
java - 直接 PropertyAccessor 的替代品？
我正在将 Spring 4.3.2 项目升级到 Spring 5.1.5。我的一个测试用例开始因错误而失败。 ClassNotFoundException: org.hibernate.propert
Java:直接 IntBuffer 的大小限制？
我想在 Java 中分配一个直接 IntBuffer，比如说 10 亿个元素(64 位系统)。我知道的唯一方法是创建一个直接 ByteBuffer 并将其视为直接 IntBuffer。但是，4*1,0
ajax - 直接 AJAX 打印
我正在寻找特定的打印机或某些打印机上存在的技术(接口(interface)、标准、协议(protocol))，这使得可以使用 AJAX 从 Web 浏览器实现直接打印。这意味着打印机必须: 网络接口
php - 直接 URL 和删除确认表
我正在寻求实现删除确认表单的最佳实践建议。除其他选项外，以下页面包含删除按钮... /website/features/f/123 ...当点击一个简单的表单时，会在以下 url 下加载: /web
java - 直接 Web 远程处理异步问题
我正在使用直接 Web 远程处理库在我的应用程序中执行一些 ajax 调用。我有一个问题，我认为归结为服务调用的延迟响应。以下是我认为有问题的部分代码。问题出在 getDefaultReviewerT
Javascript 直接 confirm() 函数替换
我想替换 Javascript confirm() 函数以允许自定义按钮而不是 Yes/Cancel。我尝试搜索，但所有解决方案都是事件驱动的，例如 jquery 对话框(代码不等待响应但它是事件驱动
java - 路径、相对、直接
我知道有几个类似的问题，但是，其中的示例并没有说明问题，或者我无法从中获利 - 我真可耻。所以我的问题是在带有 GUI 的简单应用程序中加载图像。例如: 我在 "D:\javaeclipseprog
html - 直接 child 的备用表行颜色
我想用不同的颜色为表格的行着色，所以我正在使用它 table#news tr:nth-child(even) { background-color: red; } table#news
java - 如何在Camel中使用**直接**端点实现并行处理？
下面的测试代码不起作用 from("direct:start").setExchangePattern(ExchangePattern.InOnly).threads(5).delay(2000).b
python - 直接 "plot"线段到numpy数组
我在 python 中实现的第一个项目之一是对棒渗流进行蒙特卡罗模拟。代码不断增长。第一部分是棍子渗滤的可视化。在宽度*长度的区域中，使用随机起始坐标和方向绘制具有一定长度的直棒的定义密度(棒/面积)
php - 跟踪(直接)文件下载的最佳方式
跟踪直接文件下载的最佳方法是什么？我找到了一些解决方案，例如这个: http://www.gayadesign.com/diy/download-counter-in-php-using-htacce
java - 直接 ByteBuffer 之前发生
我在一个线程中有一个直接的 ByteBuffer(堆外)，并使用 JMM 给我的一种机制将它安全地发布到另一个线程。 happens-before 关系是否扩展到由 ByteBuffer 包装的 na
java - 直接 ByteBuffer 相对与绝对读取性能
当我测试直接 java.nio.ByteBuffer 的读取性能时，我注意到绝对读取平均比相对读取快 2 倍。此外，如果我比较相对读取与绝对读取的源代码，除了相对读取维护和内部计数器外，代码几乎相同。
Angular 直接 DOM 访问？
我知道这个问题已经被问了无数次，并且在很多情况下都得到了答案。我相信我已经阅读了其中的大部分内容。不幸的是，我在这上面能找到的一切简单说明 ElementRef.nativeElement不好，不要
c - 直接 C 程序中的错误处理有什么好的习惯用法吗？
回到一些 C 语言工作。我的许多函数看起来像这样: int err = do_something(arg1, arg2, arg3, &result); 根据意图，结果由函数填充，返回值是调用的状态
xml - Worldpay 直接 XML
当我将 XML 提交到 https://secure-test.WorldPay.com/jsp/merchant/xml/paymentService.jsp 时: Personalised
opengl - XNA, 直接 X , OpenGL
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Angular 直接 url 路由总是重定向到/home
我的 Angular 路由行为有问题。刷新或输入的 url 像/user 总是将我重定向到/home。我还在 index.html 文件中设置了。通过单击导航菜单按钮一切正常。但是一旦我尝试刷新页面

首页

博学

6Ren·AI

商城

hadoop - hbase 跳过区域服务器直接从 hfile 读取行