hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)-6ren

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)

转载作者：可可西里更新时间：2023-11-01 14:18:06

26

4

您好，我是 Hive 的新手，我已经了解了 hadoop 中的桶概念，但未能理解以下几行。有人可以帮助我吗？

SELECT avg(viewTime)
 FROM page_view TABLESAMPLE(BUCKET 1 OUT OF 32);

TABLESAMPLE 的一般语法是表样本(从 y 中取出 x 桶)

查询的样本量约为 1/y。此外，y 需要是创建表时为表指定的桶数的倍数或因数。例如，如果我们将 y 更改为 16，则查询变为

SELECT avg(viewTime)
 FROM page_view TABLESAMPLE(BUCKET 1 OUT OF 16);

那么样本量大约包括每 16 个用户中的 1 个(因为 bucket 列是 userid)。该表仍有 32 个存储桶，但 Hive 尝试通过同时处理存储桶 1 和 17 来满足此查询。另一方面，如果 y 指定为 64，则 Hive 将对一个桶中的一半数据执行查询。 x 的值仅用于选择使用哪个桶。在真正随机抽样的情况下，它的值应该无关紧要。

最佳答案

哪一部分你不明白？

当您创建表并使用 clustered by 子句将其存储到 32 个存储桶中时(例如)，Hive 使用确定性哈希函数将您的数据存储到 32 个存储桶中。然后，当您使用 TABLESAMPLE(BUCKET x OUT OF y) 时，hive 会将您的存储桶分成 y 个存储桶组，然后选择第 x 个每组的桶。例如:

如果您使用 TABLESAMPLE(BUCKET 6 OUT OF 8)，hive 会将您的 32 个桶分成每组 8 个桶，从而产生 4 组每组 8 个桶，然后选择第 6 个桶每个组，因此选择桶 6、14、22、30。
如果您使用 TABLESAMPLE(BUCKET 23 OUT OF OF 32)，hive 会将您的 32 个桶分成 32 个一组，结果只有一组 32 个桶，然后选择第 23 个桶作为你的结果。
如果您使用 TABLESAMPLE(BUCKET 3 OUT OF 64)，hive 会将您的 32 个桶分成每组 64 个桶，从而产生一组 64 个“半桶”和然后选择与第 3 个全桶对应的半桶。

关于hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18781869/

26

4

0

文章推荐： java - 多个 Hadoop FileSystem 实例

文章推荐： hadoop - hadoop 2.2 的 historyserver 的正确使用方法是什么？

文章推荐： scala - yarn 上的 Spark ；如何将指标发送到 Graphite 水槽？

ssl - Bucket SSL/Bucket 的高额账单？ - 谷歌云
我正在通过 Google Bucket 托管一个简单的静态网站，请注意:比尔看起来很眼熟吗？我对高使用率感到惊讶。是否存在用于 GoogleBucket 网站的 Hitcounter？如何使用 S
Couchbase buckets vs Ephemeral buckets(沙发底座桶与Ephemeral桶)
Couchbase存储桶是否也将数据存储在内存中？我想使用Couchbase存储桶创建实时排行榜系统，并运行四个不同的查询：。1-选择现有排名2-如果存在更新排名(排名+1)3-插入排名和更多数据，如
Couchbase buckets vs Ephemeral buckets(沙发桶VS短暂桶)
Couchbase存储桶是否也将数据存储在内存中？我想使用Couchbase存储桶创建实时排行榜系统，并运行四个不同的查询：。1-选择现有排名2-如果存在更新排名(排名+1)3-插入排名和更多数据，如
ElasticSearch:获取 bucket scripted_metric 中的 bucket key
我正在尝试在 elasticsearch 中运行此查询。我正在尝试在我的存储桶上运行自定义 scripted_metric 聚合。在指标脚本中，我想访问聚合它的存储桶 key 。我在 ES 中的文档
hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)
您好，我是 Hive 的新手，我已经了解了 hadoop 中的桶概念，但未能理解以下几行。有人可以帮助我吗？ SELECT avg(viewTime) FROM page_view TABLESAM
hadoop - Impala 是否在 Hive Bucketed 表中有效使用 Buckets？
我正在改进表格的性能。说这个表: CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
android - App Standby Buckets - "Never"bucket有什么限制(bucket 50)
Android documentation提到操作系统对以下每个存储桶的应用程序施加的限制:“Activity ”、“工作集”、“频繁”和“稀有”。唯一documentation我发现“从不”存储桶
hadoop - Hive Bucketing - 如何为特定的 bucket 运行 hive 查询
我有一个配置单元查询，它读取 5 个大表并将记录输出到下一个进程。所有这些表都在 proc_dt 上分区并在 user_id 上分桶(5 个桶)。联接在 user_id 上完成，过滤在 proc_dt
symfony - SonataMediaBundle - S3 AWS : 'The configured bucket "my-bucket"does not exist
我正在尝试在我的 Sonata 项目上配置 AWS s3 文件系统，但我总是收到以下错误: The configured bucket "my-bucket" does not exist. 我的 s
python - 从 Google Cloud Storage Bucket 复制到 S3 Bucket
我已经设置了一个 airflow 工作流，将一些文件从 s3 提取到 Google Cloud 存储，然后运行 sql 查询工作流以在 Big Query 上创建新表。在工作流程结束时，我需要将最
amazon-web-services - AWS CDK 错误 : bucket policy already exists on bucket
我正在尝试在 Java 中使用 CDK 创建一个 lambda 和一个 DynamoDB。当我尝试执行“CDK 部署”时，我遇到以下错误: 11:20:30 AM | CREATE_FAILED
java - AWS Lambda : How to extract a tgz file in a S3 bucket and put it in another S3 bucket
我有一个名为“Source”的 S3 存储桶。许多“.tgz”文件被实时推送到该存储桶中。我编写了一个 Java 代码来提取“.tgz”文件并将其推送到“目标”存储桶中。我将代码作为 Lambda 函
google-cloud-platform - GCloud Storage : How to grant permission to see buckets in console but only see files in single bucket?
好的，这使我无法忍受，真是太复杂了…… 因此，要达到主题的目的，而又不授予用户对所有存储桶中所有文件的读取权限(proj中的其他存储桶都具有敏感数据) 我导航到存储桶->权限，并将用户添加为Stora
google-cloud-platform - 尝试从 Google Bucket 托管静态网站时出现 "Access denied: Anonymous users does not have storage.objects.list access to bucket"
我正在尝试按照 https://cloud.google.com/storage/docs/hosting-static-website 上的说明进行操作从 Google Bucket 托管静态网站。
amazon-web-services - AWS CloudTrail Create API for Go SDK 抛出错误消息 "InsufficientS3BucketPolicyException: Incorrect S3 bucket policy is detected for bucket: "
我正在尝试使用 Go SDK 创建一个 cloudtrail。按照 AWS 文档成功连接 AWS，没有任何问题。我按照以下步骤创建跟踪第 1 步 - 创建 S3 存储桶，以便所有跟踪日志文件都可以
哈希表 : why buckets?
据我所知，散列函数的目的是尽可能均匀地分发数据，当您发生冲突时，您有多种选择: 寻找下一个空槽生成不同的散列并尝试将其粘贴到其他地方把它放在一个溢出容器中(可以是一个列表、另一个哈希表或其他任何东
bucket - 漏桶问题有帮助吗？
我正在努力复习我的期末考试，我正在复习我的教授给我的示例问题。谁能向我解释漏桶如何工作的概念。另外，这是我的教授给我的关于漏桶的复习问题。一个漏桶位于主机网络接口(interface)。网络中的数据
php - 如何直接从url上传文件到S3 bucket
我从我的用户那里收到了一些彩信。这些彩信是通过 twilio 发送的。所以 twilio 将这些文件存储到他们的服务器中，我可以从 twilio 访问这些文件。但就我而言，我需要将这些文件存储到 S3
php - 如何直接从url上传文件到S3 bucket
我从我的用户那里收到了一些彩信。这些彩信是通过 twilio 发送的。所以 twilio 将这些文件存储到他们的服务器中，我可以从 twilio 访问这些文件。但就我而言，我需要将这些文件存储到 S3
c# - 如何将一个集合分成不同的 "buckets"
我有一组 C# 对象。对于数据成员，每个对象都有一个 guid 字符串、一个 int 索引和一个文档名称字符串。这是一个典型的集合的样子: "guid1","c:\temp\doc1.docx",1

首页

博学

6Ren·AI

商城

hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y)