gpt4 book ai didi

amazon-s3 - 在 AWS EMR 上创建 Hive 外部表

转载 作者:行者123 更新时间:2023-12-02 03:05:32 26 4
gpt4 key购买 nike

我正在尝试在 hive 中创建一个外部表通过 hueAWS EMR

CREATE EXTERNAL TABLE IF NOT EXISTS urls (
id STRING,
`date` TIMESTAMP,
url STRING,
expandedUrl STRING,
domain STRING
)
PARTITIONED BY (`year` INT, `month` INT, `day` INT)
STORED AS PARQUET LOCATION 's3://data/processed/urls/'
  • 我已经创建和 EMR集群 (emr-5.4.0) 使用 AWS 控制台。
  • 登录 Hue
  • 运行上面的 SQL

  • 在 Metastore Manager 中,我收到以下错误:

    Cannot access: s3://data/processed/urls/. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "hadoop".

    [Errno 22] Unknown scheme s3, available schemes: ['hdfs']



    我在文件管理器下也看不到 s3。
    我可以使用 CLI 工具从主节点访问 s3。

    集群创建中是否缺少任何配置选项?
    我需要给 Hue 用户额外的权限吗?

    更新

    正如 franklinsijo 建议的那样,我尝试创建一个 hdfs 用户和一个新数据库。

    我现在在数据库上遇到相同的错误:

    Cannot access: s3://data/processed.

    [Errno 22] Unknown scheme s3, available schemes: ['hdfs']



    当从 hive CLI 运行“创建数据库”SQL 时,我得到“拒绝访问”
    我正在使用 EMR_DefaultRole两者都有 AmazonElasticMapReduceRoleAmazonS3FullAccess
    更新 2

    我在 franklinsijo 的帮助下解决了这个问题
  • 我可以从 hive cli 在 s3 上创建数据库和表和 hue .
  • 我可以从表中读取和写入数据
  • 不能S3 Browser详见 http://gethue.com/introducing-s3-support-in-hue/
  • 不能通过“Metastore Manager -> Database -> Table -> STATS -> Location”访问表。我仍然得到 [Errno 22]
  • 最佳答案

    [Errno 22] Unknown scheme s3, available schemes: ['hdfs']



    这是因为 Hive 的 default数据库位置设置为 HDFS(引用 here)。使用 S3 位置创建一个新的 Hive 数据库。
    CREATE DATABASE database_name LOCATION 'S3://Bucket/Key';

    然后在这个新创建的数据库中创建表。

    Cannot access: s3://data/processed/urls/. Note: you are a Hue admin but not a HDFS superuser, "hdfs" or part of HDFS supergroup, "hadoop".



    创建一个名为 hdfs 的新 Hue 用户在 Hue UI 中具有 super 用户状态。登录为 hdfs用户执行查询。

    关于amazon-s3 - 在 AWS EMR 上创建 Hive 外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43000549/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com