sql - 基于 VARCHAR 大小的 Amazon Redshift 查询性能不佳-6ren

sql - 基于 VARCHAR 大小的 Amazon Redshift 查询性能不佳

转载作者：行者123 更新时间：2023-12-04 22:37:34

27

4

我正在构建 Amazon Redshift 数据仓库，并且遇到了基于 VARCHAR 列的定义大小的意外性能影响。详情如下。我的三个列显示在 pg_table_def 中:

 schemaname | tablename |     column      |            type             | encoding  | distkey | sortkey | notnull 
------------+-----------+-----------------+-----------------------------+-----------+---------+---------+---------
 public     | logs      | log_timestamp   | timestamp without time zone | delta32k  | f       |       1 | t
 public     | logs      | event           | character varying(256)      | lzo       | f       |       0 | f
 public     | logs      | message         | character varying(65535)    | lzo       | f       |       0 | f

我最近运行了 Vacuum 和 Analyze，我在数据库中有大约 1 亿行，根据我包含的列，我看到了非常不同的性能。

查询 1:
例如，以下查询大约需要 3 秒:

select log_timestamp from logs order by log_timestamp desc limit 5;

查询 2:
要求更多数据的类似查询在 8 秒内运行:

select log_timestamp, event from logs order by log_timestamp desc limit 5;

查询 3:
但是，这个查询与之前的非常相似，需要 8 分钟才能运行!

select log_timestamp, message from logs order by log_timestamp desc limit 5;

查询 4:
最后，这个查询与慢速查询相同，但具有明确的范围限制，非常快(~3s):

select log_timestamp, message from logs where log_timestamp > '2014-06-18' order by log_timestamp desc limit 5;

message column 被定义为能够容纳更大的消息，但实际上它并没有容纳太多数据:消息字段的平均长度是 16 个字符 (std_dev 10)。事件字段的平均长度为 5 个字符 (std_dev 2)。我真正能看到的唯一区别是 VARCHAR 字段的最大长度，但我认为这不会对简单查询返回的时间产生一个数量级的影响!

任何见解将不胜感激。虽然这不是此工具的典型用例(我们将进行聚合，而不是检查单个日志)，但我想了解我的表设计的任何微妙或不那么微妙的影响。

谢谢!

戴夫

最佳答案

Redshift 是一个“真正的列式”数据库，只读取查询中指定的列。因此，当您指定 2 个小列时，只需读取那 2 列。但是，当您添加第三个大列时，Redshift 必须做的工作会急剧增加。

这与将整行存储在一起的“行存储”数据库(SQL Server、MySQL、Postgres 等)非常不同。在行存储中，添加/删除查询列对响应时间没有太大影响，因为数据库无论如何都必须读取整行。

最后，您的上一个查询非常快的原因是您已经告诉 Redshift 它可以跳过大部分数据。 Redshift 将您的每一列存储在“块”中，这些块根据您指定的排序键进行排序。 Redshift 会记录每个块的最小值/最大值，并且可以跳过任何不能包含要返回的数据的块。

limit 子句不会减少必须完成的工作，因为您已经告诉 Redshift 它必须首先按 log_timestamp 降序对所有内容进行排序。问题是您的 ORDER BY ... DESC 必须在整个潜在结果集上执行，然后才能返回或丢弃任何数据。当列很小时，它很快，当它们很大时，它很慢。

关于sql - 基于 VARCHAR 大小的 Amazon Redshift 查询性能不佳，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24311611/

27

4

0

文章推荐： .net - 非托管代码如何在 .NET 中运行？

文章推荐： factory - Smalltalk 相当于工厂方法？

文章推荐： .htaccess - htaccess 中的重写规则

文章推荐： regex - 用正则表达式匹配 a^n A^n

cassandra - 如何在 presto 中将 varchar 转换为 MAP(VARCHAR,VARCHAR)
我在 presto 中有表，名为(“mappings”)的列将键值对作为字符串从 hello 中选择映射；例如:{“foo”:“baar”，“foo1”:“bar1”} 我想将“映射”列转换为 M
php - Mysql varchar 唯一列 varchar(255) 与 varchar(50)
我总是会在表格的特定列中输入 20 个字符的内容。我需要此列是唯一的。如果我将此列设置为 varchar(255) 而不是 varchar(20)，SELECT 查询的速度会有任何差异吗？ (输入
varchar - Dapper 和 varchars
我在 the Dapper .NET project home page 上发现了以下评论. Dapper supports varchar params, if you are executing
varchar - 将 VARCHAR 转换为数据类型 INT
我有以下代码。 Case 语句将列出的数字转换为文本并将其余代码转换为 NULL，但我不断收到以下错误:将 VARCHAR 值“RDG5”转换为数据类型 INT 时转换失败。 RDG5 是被转换为 N
sql-server - varchar 值隐式转换为 varchar - 排序规则冲突
运行此脚本时出现以下错误。我尝试过使用以下内容:整理 Latin1_General_CI_AS。请问可以排序吗？谢谢 Msg 457, Level 16, State 1, Line 8 Implic
sql - Varchar(255) 到 Varchar(MAX)
是否可以将 SQL Server 2008 数据库中的列类型从 varchar(255) 更改为 varchar(MAX)，而无需删除表并重新创建？每次我尝试使用它来执行此操作时，SQL Serve
sql varchar(max) 与 varchar(fix)
每次我对选择 varchar(max) 或 varchar(fix) 数据类型感到困惑。假设我有一个大约 5000 个 varchar 的数据列。列不是 null 类型。我应该将其设置为 varch
mysql - 将 varchar 转换为日期并按转换后的 varchar 排序
您好，我遇到问题，我的 friend 拒绝更改字段的数据类型，所以我在使用 order by 时遇到问题，这里是示例数据 04-07-2016(mm-dd-yyyy) 和字段名称名为 regis_da
arrays - 检查表中 varchar[] 和 varchar[][] 列的约束
对于文字游戏，我正在尝试向 VARCHAR 数组添加 CHECK 约束: CREATE TABLE words_games ( gid SERIAL PRIMARY KEY,
mysql - 在另一个 varchar 中查找 varchar 的元素
我有一个 varchar 字段，其内容如下: a,b,c,d e,d,a,c b,q,d,e 我需要执行一个查询，仅选择具有与输入字符串相等的元素的字段的行。前输入:c,a 选择的行: a,b,c,
MySQL - InnoDB 索引 varchar 或索引多个 varchars
大家好，我计划创建包含 10 列的表，该表应该至少有 10,000,000 行，并且在其中，我将有列 description - VARCHAR(600) 和索引。所以问题是，在该列上查询 LIKE
hadoop - VARCHAR(254) 与 VARCHAR(255)
我读过这个question关于MySQL中VARCHAR(254)和VARCHAR(255)的区别。 HiveQL 中是否有必须考虑的类似内容？也许 HiveQL 实现了一些类似于 MySQL 的存储
MySQL:VARCHAR(1024) 与 VARCHAR(512)
在 MySQL 中，VARCHAR(1024) 和 VARCHAR(512) 有什么区别？如果我的项目永远不会超过 512 个字符，那么使用 VARCHAR(1024) 我会失去什么？最佳答案不知
mysql - 为什么不将每个 VARCHAR 都指定为 VARCHAR (65535)？
由于 Varchar 字段的存储要求基于输入的字符串的实际长度，将每个 Varchar 字段指定为最大可能的缺点是什么:Varchar (65535)？那么，除了最大字段 > 255 个字符的 1 个
Presto map (varchar，varchar): How to get all the possible keys for it?
我正在尝试搜索具有数据类型 map(varchar,varchar) 的列。现在访问列的一种方法是使用这个结构，name_of_column[' key ']，它将给出该键的值。但我想知道什么是可能的
sql - varchar(128) 比 varchar(100) 好
快速提问。如果我将使用十进制字段限制或十六进制(比如 16、32、64 而不是 10、20、50)，从存储数据的角度来看是否重要？我问是因为我想知道这是否与 HDD 上的集群有关？谢谢! 最佳答案
sql-server-2005 - varchar(max) = varchar 吗？
我发现我可以写 SELECT CAST(Min(mynumber) AS VARCHAR(Max))+'mystring' AS X 作为 SELECT CAST(Min(mynumber) AS V
varchar - SQL Server Varchar 到 VarBinary 转换
我必须将字符串“johnmelling”值插入到列为的表中[用户密码] varbinary NOT NULL。请有人建议我，插入“johnmelling”的最佳转换是什么？我尝试插入如下， In
sql - varchar(500) 比 varchar(8000) 有优势吗？
我已经在 MSDN 论坛和此处阅读了此内容，但仍然不清楚。我认为这是正确的: Varchar(max) 将存储为文本数据类型，因此有缺点。假设您的字段可靠地少于 8000 个字符。就像我的数据库表中的
mysql - 如何将列的类型从 varchar(30) 更改为 varchar(100)？
我有一个这样描述的表: mysql> describe easy_table; +---------------------+--------------+------+-----+---------

首页

博学

6Ren·AI

商城

sql - 基于 VARCHAR 大小的 Amazon Redshift 查询性能不佳