gpt4 book ai didi

hadoop - 向hawq插入流数据

转载 作者:可可西里 更新时间:2023-11-01 16:24:54 27 4
gpt4 key购买 nike

如何将流式数据插入hawq并对在线数据进行查询。

  1. 我测试了 jdbc 插入,但性能很差。

  2. 之后,我测试了使用 flume 将数据写入 hdfs 并在 hawq 中创建了外部表,但是在 flume 关闭文件之前 hawq 无法读取数据。问题是,如果几天后文件数量增加,我将 flume 文件滚动设置得非常低(1 分钟),这对 hdfs 不利。

  3. 第三个解决方案是 hbase,但是因为我的大部分查询都是对许多数据的聚合,所以 hbase 不是一个好的解决方案(hbase 适合获取单个数据)。

那么在这些限制条件下,用hawq在线查询流式数据有什么好的方案呢?

最佳答案

如果您的源数据不在 hdfs 上,您可以尝试使用 gpdfist/named pipe 作为 gpfdist 外部表或使用其他 linux 脚本的 web 外部表的缓冲区。另一个解决方案是 spring xd gpfdist 模块。 http://docs.spring.io/spring-xd/docs/1.3.1.RELEASE/reference/html/#gpfdist

关于hadoop - 向hawq插入流数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38989473/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com