聊聊数仓中TPCD-DS&TPC-H与查询性能的那些事儿-6ren

聊聊数仓中TPCD-DS&TPC-H与查询性能的那些事儿

转载作者：知者更新时间：2024-03-13 03:51:39

29

4

本文分享自华为云社区《GaussDB(DWS) 《DWS之TPCD-DS&TPC-H与查询性能的那些事儿》》，作者：一剑战八荒。

1 综述

本文目标在于，详细讲述使用GaussDB(DWS)时，如何使用TPC-DS/TPC-H等标准数据模型，获取DWS的查询性能数据。主要包括，整体流程概述，DWS集群和ECS弹性云服务器环境准备，TPC-DS/TPC-H造数，建表与数据导入，执行查询与结果收集四个章节。

受限于编辑器的显示，为了更好地阅读效果，烦请下载附件的原版文档查看，获取相关脚本。

其中涉及的很多操作细节无法一一展开叙述，以梳理和展示整体的逻辑为主。其中主要涉及的工具OBS/GDS/JDBC copy后续会单独开篇叙述。若有无法解决的疑问，欢迎评论留言。

2 整体流程概述

3 DWS集群和ECS弹性云服务器环境准备

3.1 创建ECS弹性云服务器

3.2 创建DWS数据仓库

4 TPC-DS/TPC-H造数

4.1 准备数据生成工具

远程连接ECS弹性云
执行 yum install git，安装git
执行 yum install gcc，安装gcc
执行 mkdir –p /data1/script/tpcds-kit/tpcds1000X ; mkdir –p /data1/script/tpch-kit/tpch100X 创建tpc-ds或者tpc-h的存放目录
TPC-DS造数工具dsdgen请从官网获取最新版本。

通过FTP或者OBS服务上传到ECS的 /data1/script/tpcds-kit;(OBS使用方法详见附录1)

TPC-H造数工具可直接git clone下载。

cd /data1/script/tpch-kit;

git clone https://github.com/gregrahn/tpch-kit.git

解压tpch的包，进入dbgen目录，make 编译对应的造数工具dbgen
解压tpcds的包，进入tools目录，make 编译对应的造数工具dsdgen

4.2 生成数据文件

生成TPCH数据文件

进入dbgen目录后，执行./dbgen –s 100 > ./dbgen_100.log 2>&1 &，下发生成100Xtpch数据的命令到后台执行

可以通过du –sh dbgen/*.tbl,判断数据文件的生成进度。100Xtpch数据文件总大小约107GB，

也可以通过ps ux|grep dbgen，查看生成数据文件的进程是否退出

生成TPCDS数据文件

因为tpcds1000X的数据，单个标的数据文件较大，我们采取分片生成的策略。

进入tools目录后，执行

for c in {1..10};do (./dsdgen –sc 1000 –parallel 10 –child ${c} –dir /data1/script/tpcdsk-kit/tpcds1000X  > /dev/null 2>&1 &);done

其中，

-sc 指定数据规模

-parallel 指定分片数

-child 指定当前是生成分片中的第几片

-dir 指定生成数据文件存放的目录

可以通过du –sh tpcds100X/*.dat,判断数据文件的生成进度。1000Xtpcds数据文件总大小约920GB，

也可以通过ps ux|grep dsdgen，查看生成数据文件的进程是否退出。

5 建表与数据导入

5.1 GDS方式导入

5.1.1 从数据仓库服务的连接管理页面下载ECS对应版本的gsql客户端，通过ftp或obs上传到ECS上；(OBS使用方法详见附录1)

5.1.2 在ECS上部署GDS，详见华为云官方资料https://support.huaweicloud.com/tg-dws/dws_07_0759.html

5.1.3 在ECS上通过gsql工具连接集群，连接群集群所需的ip和端口号信息，可以从数据仓库服务的连接管理页面获取

5.1.4 在ECS上使用gsql连接集群，创建tpch/tpcds的内表和gds外表。建表语句详见如下sql文件，

5.1.5 在ECS使用gsql连接集群，通过GDS外表，使用insert into [目标表] select * from [目标表外表]的方式导入数据到集群内。

5.2 JDBC copy方式导入

5.2.1 从数据仓库服务的连接管理页面下载ECS对应版本的JDBC驱动，通过ftp或obs上传到ECS上；(OBS使用方法详见附录1)

5.2.2 上传JDBC驱动和copy的java脚本到ECS，此处提供dws_copy.java源码

5.2.3 在ECS上javac编译java文件，然后生成copy编译后源码和JDBC驱动的jar包,Copy.jar。编译和生成jar包详细流程如下图，

5.2.4 在ECS上java –jar Copy.jar通过JDBC copy数据到集群内。

可执行源码和二次封装的shell JDBC导数执行脚本详见如下压缩包

6 执行查询与结果收集

6.1通过编写shell脚本自动化执行查询和结果收集。

脚本压缩包如下，其中包含query.conf和run_query.sh两个文件。

query.conf为集群信息配置文件，包含如下四个变量

db_name=tpcds_test 数据库名称

db_port=6000 数据库端口号

db_user=tpcds_user 数据库用户

user_passwd=Gauss_234 数据库用户密码

编辑query.conf为集群对应的信息后，执行sh run_query.sh即可开始查询执行和结果收集。

注意事项：

gsql客户端的使用需要每次连接后，source gsql_env，执行查询脚本前请确认gsql可执行；
每个查询会跑6次，一次收集执行计划，两次预热，三次正式查询，最终结果取后三次查询的平均值；
查询脚本执行后会立即生成query_log_yymmdd_hhmmss名称的目录，其中

exlain_log子目录存放查询计划，

pre_warm子目录存放预热执行结果，

real_test子目录存放正式查询执行结果,

query_result.csv文件，csv格式汇总所有查询的执行结果,csv中结果实例如下图

7 附录

7.1 华为云OBS官方使用指导

https://support.huaweicloud.com

点击关注，第一时间了解华为云新鲜技术~

29

4

0

文章推荐：字符串判空

文章推荐：从零开始手写Tomcat的教程12节----StandardContext

文章推荐： vue自己封装一个echart公共组件

文章推荐：深入理解Java虚拟机——类加载过程

Mysql 查询 JOIN 查询
我有三张 table 。表 A 有选项名称(即颜色、尺寸)。表 B 有选项值名称(即蓝色、红色、黑色等)。表C通过将选项名称id和选项名称值id放在一起来建立关系。我的查询需要显示值和选项的名称，而
查询
在mysql中，如何计算一行中的非空单元格？我只想计算某些列之间的单元格，比如第 3-10 列之间的单元格。不是所有的列...同样，仅在该行中。最佳答案如果你想这样做，只能在 sql 中使用名称而
sql - 查询、 native 查询、命名查询和类型化查询之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
elasticsearch - 在Elasticsearch查询中没有为[查询]注册的[查询]
我正在为版本7.6进行Elasticsearch查询我的查询是这样的: { "query": { "bool": { "should": [ {
sql - 查询、 native 查询、命名查询和类型化查询之间的区别
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
php - Mysql WHERE NOT EXISTS(查询)OR(查询)
是否可以编写一个查询来检查任一子查询(而不是一个子查询)是否正确？ SELECT * FROM employees e WHERE NOT EXISTS (
javascript - 查询。为表中的每一行发送 ajax 查询
我找到了很多关于我的问题的答案，但问题没有解决我有表格，有数据，例如: Data 1 Data 2 Data 3
salesforce - SOQL 查询 - 如何通过将字段设为小写并进行比较来编写 SOQL 查询？
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
salesforce - SOQL 查询 - 如何通过将字段设为小写并进行比较来编写 SOQL 查询？
以下查询返回错误: 查询: SELECT Id, FirstName, LastName, OwnerId, PersonEmail FROM Account WHERE lower(PersonEm
Android SQLite 查询(我想解析一般的 SQL 查询)
我从 EditText 中获取了 String 值。以及提交查询的按钮。 String sql=editQuery.getText().toString();// SELECT * FROM empl
mysql 查询 - 为一个巨大的表优化现有的 MAX-MIN 查询
我有一个或多或少有效的查询(关于结果)，但处理大约需要 45 秒。这对于在 GUI 中呈现数据来说肯定太长了。所以我的需求是找到一个更快/更高效的查询(几毫秒左右会很好)我的数据表大约有 3000
SQL 查询 - 将 NULL 结果添加到 SELECT 查询
这是我第一次使用 Stack Overflow，所以我希望我以正确的方式提出这个问题。我有 2 个 SQL 查询，我正在尝试比较和识别缺失值，尽管我无法将 NULL 字段添加到第二个查询中以识别缺失
sql - 什么是动态 SQL 查询？何时需要使用动态 SQL 查询？
什么是动态 SQL 查询？何时需要使用动态 SQL 查询？我使用的是 SQL Server 2005。最佳答案这里有几篇文章: Introduction to Dynamic SQL Dynami
php - 在另一个 mysql 查询 while 循环中调用 mysql 查询
include "mysql.php"; $query= "SELECT ID,name,displayname,established,summary,searchlink,im
java - MySQL 查询 "select top 5"查询
我有一个查询要“转换”为 mysql。这是查询: select top 5 * from (select id, firstName, lastName, sum(fileSize) as To
c# - Entity Framework 查询 ToString 不会产生 SQL 查询
通过我的研究，我发现至少从 EF 4.1 开始，EF 查询上的 .ToString() 方法将返回要运行的 SQL。事实上，这对我来说非常有用，使用 Entity Framework 5 和 6。但
MySQL 查询(或 Doctrine 1.2 查询)- 从连接表和过滤器中获取最新项目
我在构造查询来执行以下操作时遇到问题: 按activity_type_id过滤联系人，仅显示最近事件具有所需activity_type_id或为NULL(无事件)的联系人表格结构如下: 一个联系人可
php - 如何在执行另一个 SQL 查询 x 分钟后执行一个 SQL 查询？
如何让我输入数据库的信息在输入数据 5 分钟后自行更新？假设我有一张 table : +--+--+-----+ |id|ip|count| +--+--+-----+ |
database - 如何在 N1QL 查询(Couchbase 查询)中使用 LENGTH() 字符串函数
我正在尝试搜索正好是 4 位数字的 ID，我知道我需要使用 LENGTH() 字符串函数，但找不到如何使用它的示例。我正在尝试以下(和其他变体)但它们不起作用。 SELECT max(car_id)
php - 将 SQL 查询 (+JOIN) 转换为 Symfony Propel 查询
我有一个在 mysql 上运行良好的 sql 查询(查询 + 连接): select sum(pa.price) from user u , purchase pu , pack pa where (

首页

博学

6Ren·AI

商城