- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
您好,我是 Hive 的新手,我已经了解了 hadoop 中的桶概念,但未能理解以下几行。有人可以帮助我吗?
SELECT avg(viewTime)
FROM page_view TABLESAMPLE(BUCKET 1 OUT OF 32);
TABLESAMPLE 的一般语法是表样本(从 y 中取出 x 桶)
查询的样本量约为 1/y。此外,y 需要是创建表时为表指定的桶数的倍数或因数。例如,如果我们将 y 更改为 16,则查询变为
SELECT avg(viewTime)
FROM page_view TABLESAMPLE(BUCKET 1 OUT OF 16);
那么样本量大约包括每 16 个用户中的 1 个(因为 bucket 列是 userid)。该表仍有 32 个存储桶,但 Hive 尝试通过同时处理存储桶 1 和 17 来满足此查询。另一方面,如果 y 指定为 64,则 Hive 将对一个桶中的一半数据执行查询。 x 的值仅用于选择使用哪个桶。在真正随机抽样的情况下,它的值应该无关紧要。
最佳答案
哪一部分你不明白?
当您创建表并使用 clustered by
子句将其存储到 32 个存储桶中时(例如),Hive 使用确定性哈希函数将您的数据存储到 32 个存储桶中。然后,当您使用 TABLESAMPLE(BUCKET x OUT OF y)
时,hive 会将您的存储桶分成 y 个存储桶组,然后选择第 x 个每组的桶。例如:
如果您使用 TABLESAMPLE(BUCKET 6 OUT OF 8)
,hive 会将您的 32 个桶分成每组 8 个桶,从而产生 4 组每组 8 个桶,然后选择第 6 个桶每个组,因此选择桶 6、14、22、30。
如果您使用 TABLESAMPLE(BUCKET 23 OUT OF OF 32)
,hive 会将您的 32 个桶分成 32 个一组,结果只有一组 32 个桶,然后选择第 23 个桶作为你的结果。
如果您使用 TABLESAMPLE(BUCKET 3 OUT OF 64)
,hive 会将您的 32 个桶分成每组 64 个桶,从而产生一组 64 个“半桶”和然后选择与第 3 个全桶对应的半桶。
关于hadoop - Hive Buckets——理解TABLESAMPLE(BUCKET X OUT OF Y),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18781869/
我正在通过 Google Bucket 托管一个简单的静态网站,请注意:比尔看起来很眼熟吗?我对高使用率感到惊讶。 是否存在用于 GoogleBucket 网站的 Hitcounter? 如何使用 S
Couchbase存储桶是否也将数据存储在内存中?我想使用Couchbase存储桶创建实时排行榜系统,并运行四个不同的查询:。1-选择现有排名2-如果存在更新排名(排名+1)3-插入排名和更多数据,如
Couchbase存储桶是否也将数据存储在内存中?我想使用Couchbase存储桶创建实时排行榜系统,并运行四个不同的查询:。1-选择现有排名2-如果存在更新排名(排名+1)3-插入排名和更多数据,如
我正在尝试在 elasticsearch 中运行此查询。我正在尝试在我的存储桶上运行自定义 scripted_metric 聚合。在指标脚本中,我想访问聚合它的存储桶 key 。 我在 ES 中的文档
您好,我是 Hive 的新手,我已经了解了 hadoop 中的桶概念,但未能理解以下几行。有人可以帮助我吗? SELECT avg(viewTime) FROM page_view TABLESAM
我正在改进表格的性能。 说这个表: CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING)
Android documentation提到操作系统对以下每个存储桶的应用程序施加的限制:“Activity ”、“工作集”、“频繁”和“稀有”。 唯一documentation我发现“从不”存储桶
我有一个配置单元查询,它读取 5 个大表并将记录输出到下一个进程。所有这些表都在 proc_dt 上分区并在 user_id 上分桶(5 个桶)。联接在 user_id 上完成,过滤在 proc_dt
我正在尝试在我的 Sonata 项目上配置 AWS s3 文件系统,但我总是收到以下错误: The configured bucket "my-bucket" does not exist. 我的 s
我已经设置了一个 airflow 工作流,将一些文件从 s3 提取到 Google Cloud 存储,然后运行 sql 查询工作流以在 Big Query 上创建新表。在工作流程结束时,我需要将最
我正在尝试在 Java 中使用 CDK 创建一个 lambda 和一个 DynamoDB。当我尝试执行“CDK 部署”时,我遇到以下错误: 11:20:30 AM | CREATE_FAILED
我有一个名为“Source”的 S3 存储桶。许多“.tgz”文件被实时推送到该存储桶中。我编写了一个 Java 代码来提取“.tgz”文件并将其推送到“目标”存储桶中。我将代码作为 Lambda 函
好的,这使我无法忍受,真是太复杂了…… 因此,要达到主题的目的,而又不授予用户对所有存储桶中所有文件的读取权限(proj中的其他存储桶都具有敏感数据) 我导航到存储桶->权限,并将用户添加为Stora
我正在尝试按照 https://cloud.google.com/storage/docs/hosting-static-website 上的说明进行操作从 Google Bucket 托管静态网站。
我正在尝试使用 Go SDK 创建一个 cloudtrail。按照 AWS 文档成功连接 AWS,没有任何问题。 我按照以下步骤创建跟踪 第 1 步 - 创建 S3 存储桶,以便所有跟踪日志文件都可以
据我所知,散列函数的目的是尽可能均匀地分发数据,当您发生冲突时,您有多种选择: 寻找下一个空槽 生成不同的散列并尝试将其粘贴到其他地方 把它放在一个溢出容器中(可以是一个列表、另一个哈希表或其他任何东
我正在努力复习我的期末考试,我正在复习我的教授给我的示例问题。谁能向我解释漏桶如何工作的概念。另外,这是我的教授给我的关于漏桶的复习问题。 一个漏桶位于主机网络接口(interface)。网络中的数据
我从我的用户那里收到了一些彩信。这些彩信是通过 twilio 发送的。所以 twilio 将这些文件存储到他们的服务器中,我可以从 twilio 访问这些文件。但就我而言,我需要将这些文件存储到 S3
我从我的用户那里收到了一些彩信。这些彩信是通过 twilio 发送的。所以 twilio 将这些文件存储到他们的服务器中,我可以从 twilio 访问这些文件。但就我而言,我需要将这些文件存储到 S3
我有一组 C# 对象。对于数据成员,每个对象都有一个 guid 字符串、一个 int 索引和一个文档名称字符串。这是一个典型的集合的样子: "guid1","c:\temp\doc1.docx",1
我是一名优秀的程序员,十分优秀!