amazon-web-services - Amazon S3 上的 Presto-6ren

amazon-web-services - Amazon S3 上的 Presto

转载作者：行者123 更新时间：2023-12-04 11:49:15

27

4

我正在尝试在 Amazon S3 存储桶上使用 Presto，但在 Internet 上没有找到太多相关信息。

我已经在一个微型实例上安装了 Presto，但我不知道如何连接到 S3。有一个桶，里面有文件。我有一个正在运行的 hive Metastore 服务器，并且已经在 presto hive.properties 中对其进行了配置。但是当我尝试在 hive 中运行 LOCATION 命令时，它不起作用。

IT 抛出错误，说找不到文件方案类型 s3。

而且我也不知道为什么我们需要运行 hadoop 但没有 hadoop，hive 就无法运行。对此有什么解释。

This和 this是我在设置时遵循的文档。

最佳答案

Presto 使用 Hive 元存储将数据库表映射到其底层文件。这些文件可以存在于 S3 上，并且可以以多种格式存储 - CSV、ORC、Parquet、Seq 等。

Hive 元存储通常通过 HQL(Hive 查询语言)通过发出类似 CREATE EXTERNAL TABLE ... 的 DDL 语句来填充。与 LOCATION ...子句引用保存数据的基础文件。

为了让 Presto 连接到 Hive Metastore，您需要编辑 hive.properties 文件(EMR 将其放在 /etc/presto/conf.dist/catalog/ 中)并设置 hive.metastore.uri合适的 Hive Metastore 服务的 thrift 服务的参数。

如果您选择 Hive 和 Presto，Amazon EMR 集群实例将自动为您配置，因此这是一个很好的起点。

如果您想在独立的 ec2 实例上对此进行测试，那么我建议您首先专注于获得与 Hadoop 基础架构一起工作的功能配置单元服务。您应该能够定义驻留在本地 hdfs 文件系统上的表。 Presto 补充了 hive，但确实需要一个功能正常的 hive 设置，presto 的 native ddl 语句不像 hive 那样功能完整，因此您将直接从 hive 创建大多数表。

或者，您可以为 mysql 或 postgresql 数据库定义 Presto 连接器，但这只是一个 jdbc 传递，我认为您不会获得太多好处。

关于amazon-web-services - Amazon S3 上的 Presto，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37108793/

27

4

0

文章推荐： regex - 每两列相减

文章推荐： f# - 在异步工作流中捕获 HttpClient 超时

文章推荐： tfs - NPM:仅安装丢失 - 如何加快 npm install

presto - Presto CLI 上 Presto 中的参数化 SQL
是否有任何选项可以在 Presto CLI 上提供参数。我正在尝试将我的 impala-shell 命令更改为 Presto，其中我的 HQL 文件从 impala 的命令行获取参数，如下所示。 i
presto - Presto 中不区分大小写的分组依据
默认情况下，Presto 执行区分大小写的分组依据。但我想知道如何进行不区分大小写的分组。一种方法是将列中的所有东西都转换为小写，然后进行group by ie select * from ( sel
presto - Presto 的硬件要求
我怀疑答案是“视情况而定”，但是否有关于计划用于 Presto 的硬件类型的一般指导? 由于 Presto 使用一个协调器和一组工作器，并且工作器使用数据运行，我想主要问题将是协调器有足够的 RAM，
presto - Presto 是否开箱即用地在内部缓存中间结果？
Presto 有多个 connectors 。虽然连接器确实实现了读写操作，但从我读过的所有教程来看，它们似乎通常用作仅读取的数据源。例如，netflix 在 Amazon S3 上有“10 PB”的
presto - 您如何检查您使用的是哪个版本的 Presto？
Postgres 有: SELECT VERSION(); 什么是 Presto 等价物？我已经看过 Presto docs ，但无法找到等价物。最佳答案你试过下面的吗？ SELECT node
presto - Presto 支持的文件格式
Presto 支持哪些文件格式？是否有推荐的特定文件格式以获得更好的性能。我很想知道是否有像 RCfile 这样针对 Presto 进行优化的柱状文件格式？最佳答案我们测试每个 Trino (fo
presto - Presto 中的用户定义函数
我目前正在使用 Presto 0.80。我必须编写一个用户定义的函数来在选择查询期间将摄氏度转换为华氏度。我使用 Hive QL 做了同样的事情，但想知道我们是否可以在 Facebook Presto
presto - 如何列出所有 Presto worker ？
我想获得所有连接的工作人员的列表，以便我可以检测哪个工作人员不工作。我试过 select * from sys.node;但它不起作用。我正在使用 Presto 0.128。最佳答案对于 0.
presto - 检查 Presto 值映射中是否存在键
我是 Presto 的新手，无法弄清楚如何检查 map 中是否存在 key 。当我运行 SELECT查询，返回此错误信息: Key not present in map: element SELECT
presto - 在 Presto 中添加两张 map
我的数据如下所述 customer_id usage_month usage_by_product usage 1 June {"A":5
presto - 在 Athena/presto 中取消嵌套映射值作为单独的列
我的问题有点类似于这个( Athena/Presto - UNNEST MAP to columns )。但就我而言，我事先知道我需要哪些列。我的用例是这样的我有一个 json blob，其中包含
presto - 创建一个 Presto 表，其中一列为数组数据类型
如何在 Presto 中创建一个表，其中其中一列具有数组数据类型？例如: 如果不存在则创建表(ID BIGINT、ARRAY_COL 数组)... 最佳答案编辑数组类型的语法为array(ele
presto - 在 Athena/presto 中取消嵌套映射值作为单独的列
我的问题有点类似于这个( Athena/Presto - UNNEST MAP to columns )。但就我而言，我事先知道我需要哪些列。我的用例是这样的我有一个 json blob，其中包含
presto - Presto 是否支持 Parquet 格式？
使用 Impala 运行 CDH4 集群，我创建了 parquet 表并在 adding 之后parquet jar 文件到 hive，我可以使用 hive 查询表。将相同的 jar 集添加到/op
presto - 从 AWS Athena/Presto 查询结构字段
我将为这个站点做一个简化的例子，但基本上我正在尝试编写一个 Athena 查询(由 Glue 爬虫加载的数据，意图在 Quicksight 中使用)，这将允许我在 select 语句中扩展一个结构。
presto - 在 JDK 6 上运行 Presto
我尝试运行启动器但遇到此错误: Exception in thread "main" java.lang.UnsupportedClassVersionError: sun/misc/Floating
presto - 如何在 Windows 上开始(构建)Presto
我看到明确的要求，要构建 presto，您需要 Mac OS/Linux。 https://github.com/prestodb/presto我还看到正在讨论有关为 Presto 构建提供 Wind
presto - 如何在 presto 中将 varbinary 转换为 varchar
我有以下查询，其中 shopname 存储为 varbinary 而不是 varchar 类型。 select shopname, itemname from shop_profile where c
presto - Presto 是否具有等效于 Hive 的 SET 命令
能够设置脚本变量非常方便。例如， SET start_date = 20151201; SELECT * FROM some_table where date = {$hiveconf:start_d
presto - Presto 的 "query data where it lives"是什么意思？
我在 Presto 教程上看到了这个，它说好处是“在数据存在的地方查询数据”。这是什么意思？我喜欢与事物的传统 v. Presto 版本进行比较。编辑:通过链接到主页上的引用来添加上下文 http

首页

博学

6Ren·AI

商城

amazon-web-services - Amazon S3 上的 Presto