gpt4 book ai didi

csv - 在 Azure Blob 存储的多个 CSV blob 上创建 Hive 表

转载 作者:可可西里 更新时间:2023-11-01 14:44:00 25 4
gpt4 key购买 nike

我有一个 Azure Blob 存储。在一个名为 DATA 的容器中,我有以下方式的 CSV blob - enter image description here

现在我已经使用 HDInsight 创建了一个 Hadoop 集群。

作为下一部分,我想创建用于查询的 Hive 表。我这里有具体问题。

1) 如何在单个查询中将所有 BLOBS 加载到 Hive 表?

对于单个 BLOB,我可以使用类似以下查询的内容。但是如何在单个查询中对多个 Blob 执行此操作?

# Use the external table option. 
$queryString = "DROP TABLE log4jLogs;" +
"CREATE EXTERNAL TABLE log4jLogs(t1 string, t2 string, t3 string, t4 string, t5 string, t6 string, t7 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION 'wasb://$containerName@$storageAccountName.blob.core.windows.net/example/data/';" +
"SELECT t4 AS sev, COUNT(*) AS cnt FROM log4jLogs WHERE t4 = '[ERROR]' GROUP BY t4;"

2)创建Hive表时LOAD DATA和EXTERNAL TABLE的主要区别是什么?

任何输入都会有帮助。

######################更新 1 ###################### #

我遵循了以下建议,但无法使其适用于ONE BLOB

我的 BLOB 是 CSV。我通过 powershell 将其从本地上传到 blob 存储。此 Blob 存储和容器获取 HDInsight 的默认示例。 Blob 数据如下所示。

  • 1、拉米、维穆拉、29
  • 2、 jack 、阿斯顿、33

enter image description here

我的 Hive 查询 -

# Provide Windows Azure subscription name, and the Azure Storage account and container that is used for the default HDInsight file system.
$subscriptionName = "Rami"
$storageAccountName = "storagename"
$containerName = "containername"


# Provide HDInsight cluster name Where you want to run the Hive job
$clusterName = "clustername"


# Use the external table option.
$queryString = "DROP TABLE mylogss;" +
"CREATE EXTERNAL TABLE mylogss(t1 string, t2 string, t3 string, t4 string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'wasb://$containerName@$storageAccountName.blob.core.windows.net/blobrami/';" +
"SELECT COUNT(*) AS cnt FROM mylogss;"


# Create a Hive job definition
$hiveJobDefinition = New-AzureHDInsightHiveJobDefinition -Query $queryString


# Submit the job to the cluster
Select-AzureSubscription $subscriptionName
$hiveJob = Start-AzureHDInsightJob -Cluster $clusterName -JobDefinition $hiveJobDefinition



# Wait for the Hive job to complete
Wait-AzureHDInsightJob -Job $hiveJob -WaitTimeoutInSeconds 3600

结果 - enter image description here

所以最后我无法获得任何输出。它以代码 1 退出。我不确定我做错了什么。

最佳答案

外部表是 hive 仅管理元数据(架构,...)的表。您在其中加载数据的常规 Hive 表的元数据及其数据均由 HIVE 管理。

如果删除外部表,不会丢失数据。

对于 HDInsight,我通常使用外部表,因为我可以在群集关闭时继续在 Blob 存储 (wasb) 中添加数据(因此我不为此付费)。当我针对该数据重新启动集群时,我只需运行创建外部表的 hive 脚本,以便能够通过 hive 访问它们。没有数据加载。

这是一个示例脚本:

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

create external table IF NOT EXISTS raw_tweets ( json_response string ) partitioned by (dt string) stored as textfile;
alter table raw_tweets add if not exists partition(dt='2013-03-06') location 'wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="25485c464a4b51444c4b405765485c56514a574442404446464a504b510b47494a470b464a57400b524c4b414a52560b4b4051" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-6';
alter table raw_tweets add if not exists partition(dt='2013-03-07') location 'wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="036e7a606c6d77626a6d6671436e7a70776c716264666260606c766d772d616f6c612d606c71662d746a6d676c74702d6d6677" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-7';
alter table raw_tweets add if not exists partition(dt='2013-03-08') location 'wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="b3decad0dcddc7d2daddd6c1f3decac0c7dcc1d2d4d6d2d0d0dcc6ddc79dd1dfdcd19dd0dcc1d69dc4daddd7dcc4c09dddd6c7" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-8';
alter table raw_tweets add if not exists partition(dt='2013-03-09') location 'wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="dbb6a2b8b4b5afbab2b5bea99bb6a2a8afb4a9babcbebab8b8b4aeb5aff5b9b7b4b9f5b8b4a9bef5acb2b5bfb4aca8f5b5beaf" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-9';
alter table raw_tweets add if not exists partition(dt='2013-03-10') location 'wasb://mycontain<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="086d7a4865717b7c677a696f6d696b6b677d667c266a64676a266b677a6d267f61666c677f7b26666d7c" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-10';
alter table raw_tweets add if not exists partition(dt='2013-03-11') location 'wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="74190d171b1a00151d1a110634190d07001b061513111517171b011a005a16181b165a171b06115a031d1a101b03075a1a1100" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-11';
alter table raw_tweets add if not exists partition(dt='2013-03-12') location 'wasb://<a href="https://stackoverflow.com/cdn-cgi/l/email-protection" class="__cf_email__" data-cfemail="0865716b67667c6961666d7a4865717b7c677a696f6d696b6b677d667c266a64676a266b677a6d267f61666c677f7b26666d7c" rel="noreferrer noopener nofollow">[email protected]</a>/data/socialvilles/2013-3-12';

create external table IF NOT EXISTS tweets2 (
id string,
lang string,
json_response string)
partitioned by (dt string)
row format delimited fields terminated by '\t' lines terminated by '\n' stored as textfile
location '/wasbwork/tweets2';

insert overwrite table tweets2
partition (dt)
select
get_json_object(json_response, '$.id_str') as id,
get_json_object(json_response, '$.user.lang') as lang,
json_response,
dt
FROM raw_tweets
where (length(json_response) > 500);

然后,您可以删除 HDInsight 群集,并在位于 yourdefaultblobstorage.blob.core.windows.net/yourclustercontainer/wasbwork/tweets2 的 Blob 存储中找到结果

如果您想使用常规 HIVE 表,我建议在 Azure SQL 数据库中使用 Hive 和 Oozie 元存储创建 HDInsight 集群(创建集群时有一个选项),以便 Hive 记住其存储位置它的数据。

关于csv - 在 Azure Blob 存储的多个 CSV blob 上创建 Hive 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20650109/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com