gpt4 book ai didi

postgresql - 如何用Hadoop实时处理Postgres数据库?

转载 作者:可可西里 更新时间:2023-11-01 14:53:14 32 4
gpt4 key购买 nike

我有一个用于生产服务器的 Postgres 数据库,需要使用 Hadoop 对其进行定期分析。 Hadoop 中的每个查询都应基于 Postges 数据库中的最新版本。不同步是可以接受的,但应该只延迟几分钟。

如何在 Hadoop 中进行这种近乎实时的数据分析?

最佳答案

是的,可以通过配置Storage Handler来实现Hive的API实现。

Storage Handler的概念只是将外部表元数据单独存在于Hive metastore中,实际的数据存储系统将是外部数据源。其中 hive 表元数据将包含外部数据库表的详细信息,以及通常的列和格式详细信息。

每当您向配置了存储处理程序的 Hive 表写入数据时,存储处理程序 API 会将写入操作委托(delegate)给配置的外部数据库,以便将记录写入外部表。

以相同的方式,当您从配置了存储处理程序的 Hive 表中读取数据时,实际记录将通过 API 从外部表中获取。

似乎已经有一个用于 postgres 数据库的 Hive 存储处理程序 api 实现可用,请引用以下 url。

https://github.com/myui/HiveJdbcStorageHandler

希望这对你有帮助..

关于postgresql - 如何用Hadoop实时处理Postgres数据库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30316392/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com