java - 在 hbase 中有效地发送许多 get 请求-6ren

java - 在 hbase 中有效地发送许多 get 请求

转载作者：可可西里更新时间：2023-11-01 15:01:17

30

4

我正在尝试在 Java 中创建一个通用方法来查询 hbase。

我目前写了一篇接受 3 个参数的文章

一个Range(扫描表格)
列(待返回)...和
条件(即browser==Chrome)

所以一条语句(如果用 SQLish 语言编写)可能看起来像

SELECT OS FROM TABLE WHERE BROWSER==CHROME IN RANGE (5 WEEKS AGO -> 2 WEEKS AGO)

现在，我知道我没有正确使用 HBase(对 rowkey 等使用常见的列查询)，但为了实验，我想尝试一下，以帮助我学习。

所以我做的第一件事是在 Scan 上设置一个 Range。 (5 周到 2 周前)，因为 rowkey 是 timestamp，所以效率很高。

然后我设置了一个 SingleColumnValueFilter (browser = Chrome)(在范围过滤器之后，这非常快)

然后我将所有行键(来自扫描)存储到一个数组中。

对于每个 rowkey(在数组中)，我执行一个 GET 操作以获取相应的 OS。

我尝试过使用 MultiGet，它大大加快了处理速度。

然后我尝试使用普通的 GET 请求，每个请求都产生一个新线程，所有线程都同时运行，这将查询时间减半了!但还是不够快。

我考虑过限制使用单个数据库连接的线程数。即 - 每个连接 100 个线程。

鉴于我的情况，执行这些 GET 的最有效方法是什么，还是我完全错误地接近了它？

非常感谢任何帮助。

编辑(这是我的线程GET 尝试)

List<String> newresults = Collections.synchronizedList(new ArrayList<String>());

for (String rowkey : result) {
    spawnGetThread(rowkey, colname);
}

public void spawnGetThread(String rk, String cn) {
    new Thread(new Runnable() {
        public void run() {

            String rt = "";
            Get get = new Get(Bytes.toBytes(rk));
            get.addColumn(COL_FAM, cn);
            try {
                Result getResult = tb.get(get);
                rt = (Bytes.toString(getResult.value()));
            } catch (IOException e) {
            }
            newresults.add(rt);
        }
    }).start();
}

最佳答案

Given my circumstances, what is the most efficient way to perform these GETs, or am I totally approaching it incorrectly?

我会建议以下方式

如果您知道可以预先访问哪些行键，那么 Get 就很好。

在这种情况下，您可以使用如下方法，它将返回结果数组。

/**
     * Method getDetailRecords.
     * 
     * @param listOfRowKeys List<String>
     * @return Result[]
     * @throws IOException
     */
    private Result[] getDetailRecords(final List<String> listOfRowKeys) throws IOException {
        final HTableInterface table = HBaseConnection.getHTable(TBL_DETAIL);
        final List<Get> listOFGets = new ArrayList<Get>();
        Result[] results = null;
        try {
            for (final String rowkey : listOfRowKeys) {// prepare batch of get with row keys
   // System.err.println("get 'yourtablename', '" + saltIndexPrefix + rowkey + "'");
                final Get get = new Get(Bytes.toBytes(saltedRowKey(rowkey)));
                get.addColumn(COLUMN_FAMILY, Bytes.toBytes(yourcolumnname));
                listOFGets.add(get);
            }
            results = table.get(listOFGets);

        } finally {
            table.close();
        }
        return results;
    }

补充说明:行过滤器总是比列值过滤器(进行全表扫描)更快。

建议阅读 hbase 权威指南 --> Client API: Advanced Features

关于java - 在 hbase 中有效地发送许多 get 请求，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38876718/

30

4

0

文章推荐： hadoop - 'hdfs dfs -ls' 和 'hdfs dfs -ls/' 之间的区别

文章推荐： html - 未应用溢出的嵌套 flexbox 中的 CSS

文章推荐： hadoop - 当 Memstore 在 Hbase 中崩溃时会发生什么？

ios - 如何从 Node js 发送 voip 推送通知？我可以从 curl 发送 voip 推送，但不能从 Node 发送
我正在使用 voip 推送通知制作 ios 应用程序。我想从 Node js 发送 voip 推送通知，但不是很好。我阅读了本教程 CallKit iOS Swift Tutorial for V
C套接字编程，发送
我编写了一个服务器，当浏览器尝试连接到某些站点时，它会检查黑名单并发回 404，但是当我调用 send() 时没有错误，但消息不会出现在网络上浏览器，除非我关闭连接？有什么建议吗？接受来自浏览器的
发送 EOF 后无法读取任何内容？
#include int main() { char c = getchar(); //EOF (ctrl + d ) while( ( c = getchar() ) != '?'
powershell - 发送-替换HTML电子邮件
我正在尝试使用MailMessage对象通过PowerShell发送电子邮件。该脚本使用Import-CSV来使用文件，然后在电子邮件正文中使用ConvertTo-HTML。由于我要发送的电子邮件客户
Powershell - 发送/接收的字节数
我需要创建一个脚本，每 30 秒对网络流量进行一次采样并存储发送/接收的字节。该数据随后用于绘制图形。我编写了一个在 Windows 2012 上完美运行的程序，但我意识到某些 cmdlet 在以前的
AutoIt:发送 ("{DOWN}")不起作用
我正在运行“autoit3.chm”文件。当它运行时，我想发送一个向下键箭头，但它不起作用: $file = FileGetShortName("C:\Users\PHSD100-SIC\Deskto
c - 发送()问题
当我使用网络浏览器测试我的程序时，我可以很好地写入套接字/FD，所以我决定循环它并在连接中途切断连接，我发现了一个问题。 send() 能够在套接字不可用时关闭整个程序。我认为问题在于该程序陷入了第
AutoIt:发送 ("{DOWN}") 不工作
我正在运行“autoit3.chm”文件。当它运行时，我想发送一个向下键箭头，但它不起作用: $file = FileGetShortName("C:\Users\PHSD100-SIC\Deskto
java - 发送/接收数据出现问题
所以我试图向自己发送数据并接收数据然后打印它，现在我已经测试了一段时间，我注意到它没有发送任何东西，事实上，也许它是，但我没有正确接收它，我需要这方面的帮助。这就是我用来发送数据的
java - 发送/序列化对象的最佳实践
问题:开发人员创建自己的序列化格式有多常见？具体来说，我使用 java 本质上将对象作为一个巨大的字符串发送，并用标记来分隔变量。我的逻辑:我选择这个是因为它几乎消除了语言依赖性(忽略java的修改
ethernet - 发送/接收原始以太网帧
我必须在 Linux 上编写一个应用程序，该应用程序需要与具有自定义以太网类型的设备进行通信。甚至在如何编写这样的应用程序中也有很多解决方案。一个缺点是需要 root 访问权限(AFAIK)。之后释放
javascript - 单选按钮值在提交表单时作为 "on"发送
我有一个包含三个单选按钮选项的表单。我需要将表单数据提交到另一个文件，但由于某种原因，发送的数据包含所选单选按钮的值“on”，而不是 value 属性的值。我尝试通过 post() 函数手动操作和发
c - 如何使具有两个线程的两个进程在MPI中相互接收、发送？
基本上我想实现这样的目标: Process 1 Thread 1 Receive X from process 2 Thread 2 Receive Y from proces
java - 发送 session
我目前正在 Google App Engine 上开发一个系统，对它还很陌生，我正在使用 Java 平台进行开发。我在 servlet 之间发送 session 对象时遇到问题。我已经在 appeng
javascript - 发送 $(this) 作为参数
当我尝试将“this”(触发的元素)作为参数发送给函数时，函数收到“Object[Document build.php]”作为参数，而不是触发的元素。请让我知道我的错误: function set(a
android 响应联系人 > 发送？
我正在寻找让我的应用响应联系人 > 发送的魔法咒语。我希望能够接收联系人的 URI 以便检索联系人。谁有 list 过滤器/代码 fragment 吗？最佳答案我没有睾丸，但您可以尝试基于 ACT
c++ - 发送/接收套接字阻塞问题
关于我心爱的套接字的另一个问题。我先解释一下我的情况。之后我会告诉你是什么困扰着我。我有一个客户端和一个服务器。这两个应用程序都是用 C++ 编写的，实现了 winsock2。连接通过 TCP 和
C 发送/返回带有函数的数组
我看到了这篇文章 http://www.eskimo.com/~scs/cclass/int/sx5.html 但这部分让我感到困惑:如果我们已经使用 send_array 或 send_array_
c - 发送:无效参数
我对这行代码有疑问。我必须将一个数据包带到一个端口并重新发送到接口(interface)(例如:eth0)。我的程序成功地从端口获取数据包，但是当我重新发送(使用 send())到接口(interfa
发送 X11 鼠标事件的正确方法
我正在尝试编写一个 X11 输入驱动程序，它可以使用我的 Android 手机上的触摸屏来移动和单击鼠标。我可以正常移动鼠标，但我无法让应用程序正确识别点击。我当前的代码位于 https://gist

首页

博学

6Ren·AI

商城

java - 在 hbase 中有效地发送许多 get 请求