- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们有一张宽表,目前正在尝试优化。该表有 50 列(统计数据),我们最终希望按降序排列。目前有超过 500 万行。
我们正在寻找在降低复杂性和提高读取速度方面优化此表的方法。写速度对我们来说也很重要,但读更关键。这些统计数据的排名应该尽可能接近实时,最佳解决方案是在每个请求的基础上快速排名(新行一直在添加,我们希望尽快显示这些行的排名.)
我们目前正在评估垂直表格布局是否 a.) 性能更高,b.) 更易于使用。
因为插入的统计数据不一定定义明确,如果它们不被硬编码到表中(因此首选垂直表结构),对我们来说会更容易。
下面是我们当前的表结构和查询:
CREATE TABLE Stats
(
Id BIGINT PRIMARY KEY NOT NULL,
UserId INT,
Name VARCHAR(32) NOT NULL,
Value DECIMAL(10,4) DEFAULT ((0)) NOT NULL,
UpdatedAt DATETIME
);
CREATE INDEX Leaderboard__index ON Stats (Name, Value DESC);
SELECT
Id,
Name,
Value,
RANK() OVER (PARTITION BY Name ORDER BY Value DESC) AS Rank
FROM
Stats
ORDER BY
Value DESC
通常我们会搜索任何给定统计数据的前 N 行(例如排行榜),或者我们会选择一个 UserId 并获取与该 UserId 关联的所有统计数据的排名。
数据量很大(我上面说了,因为有很多行和很多列,一个垂直表结构可能在2.5亿行范围内,而且还会继续增长。)
我们希望在任何需要的硬件上尽快获取这些数据,秒是我们的目标,因为我们目前处于分钟范围内。
在垂直表结构的测试中,我们插入了超过 400,000 行数据,上面的查询只用了不到 3 分钟(尽管对 10,000 行进行排名也只用了大约 18 秒。)
我很想听听任何建议。感谢您的宝贵时间!
最佳答案
您拥有的索引对您的窗口函数没有用,因为
1.To get ID column value, SQL may end up doing key lookups or even end up scanning whole other index if it crosses Tipping point.So your index may not be used at all.
2.You are ordering by val desc which requires a sort with no suitable index and may even endup spilling to TEMPDB
3.For one more interesting fragmenation aspect ,see below
通常要使窗口函数运行良好,您将需要一个POC索引,这意味着
P,O--Partition and order by columns should be in key clause
C--covering --columns you are including in select should be included
因此,下面的查询才能以最佳方式工作。
SELECT
Id,
Name,
Value,
RANK() OVER (PARTITION BY Name ORDER BY Value DESC) AS Rank
FROM
Stats
ORDER BY
Value DESC
您将需要以下索引
create index nci_test on dbo.table(name,value desc)
include(id)
您使用“value desc
”创建的索引还有一个问题。
通常在一个索引中,所有的值都默认按升序存储,但是对于这个索引,你要求以相反的方式存储,这会导致逻辑碎片,这可以从answer中看出。的 Martin Smith此处 ..从此处粘贴答案中的相关术语 ...
If the index is created with keys descending but new rows are appended with ascending key values then you can end up with every page out of logical order. This can severely impact the size of the IO reads when scanning the table and it is not in cache
选项太少了..
1.根据您的频率运行索引重建,看看是否有帮助
2.将查询更改为按分区子句排序将消除使用“val desc”选项创建索引的需要
SELECT
Id,
Name,
Value,
RANK() OVER (PARTITION BY Name ORDER BY Value DESC) AS Rank
FROM
Stats
ORDER BY
name DESC
上面的查询不需要像您创建的那样创建索引。您可以像下面这样更改它..它也处理上面提到的碎片方面
CREATE INDEX Leaderboard__index ON Stats (Name, Value)
include(id);
引用资料:
Microsoft SQL Server 2012 High-Performance T-SQL Using Window Functions
关于database - 在 SQL Server 中优化索引以进行排名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37771522/
我正在查看下面的示例代码, r element frequency and column name 并且想知道除了r中的排名和频率之外,是否有任何方法可以显示每列中每个元素的索引。因此,例如,所需的输
我有下表按 Id、Year DESC 排序 ID 年份有效 1 2011 1 1 2010 1 1 2009 0 1 2002 1 4 2013 1 4 2012 1 4 2011 1 等等。 我想要
鉴于此数据 Type Time Outcome Wanted Result 1 8:00 1 1 1 9:00 1 1 1 10:00 1 1 0
我正在寻找一种对两个句子进行排名/匹配的方法。 例如,取以下2个例句。 这是一个简短的句子。 这是一个包含很多单词的长句子。 我的新句子是这是一个句子。 我想将我的新句子与现有句子进行比较。我的新句子
我是 scikit 新手,我正在按照此处的示例 http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_dat
我有一张 table : r_user | r_points | -------------------- user1 | 12 | user2 | 124 | use
我需要获得顶级玩家、给定玩家的排名以及与该给定玩家排名相关的少数玩家。 为了更清楚地解释,下表是我想要的,它显示了得分最高的 3 名玩家、给定玩家的排名 (id=11) 以及得分略高于和低于该给定玩家
我正在尝试创建一个排名(排名)查询。 我使用表users、schedule 和picks来计算排名。然而,这样做的缺陷是,如果用户未提交任何选择,则该用户将不会出现在排名中。 下面的查询返回所有已提交
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: High score system from my iphone game 我的查询是: $sql = "SELEC
我有一个玩家表和MatchUps表。 MatchUps 表具有一个 winner_id 列和一个 loser_id 列。我可以根据一次查询的胜率获得排名/排名吗?如果我能为每个玩家返回这样的东西,那就
我正在尝试创建一个排名/阶梯系统,其中排名最高的氏族 (1) 应位于顶部,排名为 2 的氏族应位于顶部,依此类推。但我无法让它工作......我尝试了不同的方法: PHP: $sql = mysql_
我需要一份游戏中排名最高的玩家列表。排名是即时计算的,数据取自两个表。我设法以正确的方式对它们进行排序,但是@rank:=0 -> @rank:=@rank+1 技巧,其中一个名为 rank 的附加字
下周末我们将进行一场包含 3 项资格赛(半决赛和决赛)的比赛。只有最好的 15 名参赛者才能参加半决赛。只有最好的 6 人才能参加总决赛。 在资格考试中,每项资格考试的分数从 0 到 100 不等 我
我正在尝试找出对我的产品进行加权的最佳方式,以及它们应该以何种顺序出现在主页等地方。 我想处理四个指标并将其转化为排名: 购买产品 产品有多久了(以天为单位) 产品被保存了多少次 产品被浏览了多少次
使用 @N=@N + 1 的经典技巧来获取某些有序列上的项目排名。现在在订购之前,我需要通过将它与其他表内部连接来从基表中过滤掉一些值。所以查询看起来像这样 -: SET @N=0; SELECT
我需要一些帮助来处理在 MySQL 中排名时的关系。例如: 播放器 |积分 玛丽:90 鲍勃:90 吉姆:65 凯文:12 Bob 和 Mary 应该都排名第一。吉姆应该是#3。凯文应该是#4。 My
我正在寻找一种算法,该算法可以为我提供具有特定强度的下一个排列。长度为 n 的排列由元素 (1,2,3,...n) 定义 排列的强度是多少? 长度为 10 的排列的强度定义为 |a1-a2|+|a2-
我正在编写一个具有信誉组件的电子商务引擎。我希望用户能够对项目进行评论和评分,并能够对评论进行评分。 用于根据“最佳”评论对项目进行排序的最佳算法是什么?它必须根据给出最佳评论的人获得的质量评论数量进
我有一个按游戏结果填满游戏的数据库表,想知道我是否可以计算以下内容: GP(玩过的游戏) 获胜 失败 积分(每胜2分,每负1分) 这是我的表结构: CREATE TABLE `results` (
我有一个 users 表,其中有一列名为 money_sent。我想按 money_sent 降序排列此表,然后找出特定用户的“排名”。 例如,只有 111 人比用户 12392 花费更多的钱,因此他
我是一名优秀的程序员,十分优秀!