gpt4 book ai didi

amazon-web-services - Amazon S3 上的 Presto

转载 作者:行者123 更新时间:2023-12-04 11:49:15 27 4
gpt4 key购买 nike

我正在尝试在 Amazon S3 存储桶上使用 Presto,但在 Internet 上没有找到太多相关信息。

我已经在一个微型实例上安装了 Presto,但我不知道如何连接到 S3。有一个桶,里面有文件。我有一个正在运行的 hive Metastore 服务器,并且已经在 presto hive.properties 中对其进行了配置。但是当我尝试在 hive 中运行 LOCATION 命令时,它不起作用。

IT 抛出错误,说找不到文件方案类型 s3。

而且我也不知道为什么我们需要运行 hadoop 但没有 hadoop,hive 就无法运行。对此有什么解释。

Thisthis是我在设置时遵循的文档。

最佳答案

Presto 使用 Hive 元存储将数据库表映射到其底层文件。这些文件可以存在于 S3 上,并且可以以多种格式存储 - CSV、ORC、Parquet、Seq 等。

Hive 元存储通常通过 HQL(Hive 查询语言)通过发出类似 CREATE EXTERNAL TABLE ... 的 DDL 语句来填充。与 LOCATION ...子句引用保存数据的基础文件。

为了让 Presto 连接到 Hive Metastore,您需要编辑 hive.properties 文件(EMR 将其放在 /etc/presto/conf.dist/catalog/ 中)并设置 hive.metastore.uri合适的 Hive Metastore 服务的 thrift 服务的参数。

如果您选择 Hive 和 Presto,Amazon EMR 集群实例将自动为您配置,因此这是一个很好的起点。

如果您想在独立的 ec2 实例上对此进行测试,那么我建议您首先专注于获得与 Hadoop 基础架构一起工作的功能配置单元服务。您应该能够定义驻留在本地 hdfs 文件系统上的表。 Presto 补充了 hive,但确实需要一个功能正常的 hive 设置,presto 的 native ddl 语句不像 hive 那样功能完整,因此您将直接从 hive 创建大多数表。

或者,您可以为 mysql 或 postgresql 数据库定义 Presto 连接器,但这只是一个 jdbc 传递,我认为您不会获得太多好处。

关于amazon-web-services - Amazon S3 上的 Presto,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37108793/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com