gpt4 book ai didi

sql - 将具有默认值的列添加到大表中

转载 作者:行者123 更新时间:2023-12-02 16:19:00 25 4
gpt4 key购买 nike

我有一个包含 4000 万条记录的表。我需要向该表添加一个新的 INT NOT NULL 列,默认值 = 0

使用以下内容添加此列时:

ALTER TABLE myTable ADD NewColumnID int NOT NULL CONSTRAINT DF_Constraint DEFAULT 0

它将所有记录的 NewColumnID 设置为 0。当我们在有 4000 万条记录的 prod 表上运行这个查询时,这会花费很长时间吗?因为我知道执行以下操作需要很长时间:

UPDATE myTable SET NewColumnID = 0

更新:2020 年 1 月 5 日:

自从我上次登录我的堆栈溢出帐户以来已经有一段时间了。我注意到这个问题是我在 2013 年发布的。我收到了一些关于这个问题的不好的评价,现在我明白为什么了。我必须读好几遍才能明白我到底在问什么以及答案如何适用。看到它的观看次数超过 6000 次,也许值得(7 年后,抱歉)提供更多背景信息。

请允许我澄清一下问题:

我在一家银行软件提供商工作。我们在世界各地拥有各种客户,并且正在对我们的软件进行大型更新,这需要将新列添加到我们软件使用的现有表中。根据银行的规模,这个特定的表通常相当大。要求是,当首次添加列时,将特定 ID 分配给所有现有记录,之后表中的所有新条目将恢复为值“0”。

所以...在测试阶段,我们注意到升级脚本中包含以下内容需要近一个小时才能处理 4000 万条记录:

ALTER TABLE myTable ADD NewColumnID int NOT NULL CONSTRAINT DF_Constraint DEFAULT 0
UPDATE myTable SET NewColumnID = 50

上面的示例将添加新列,然后使用 NewColumnID = 50 更新所有现有记录。这在运行它的硬件上花费了近一个小时。我知道这会根据客户的基础设施而有很大差异。

提出这个问题的原因是想看看是否有更快的方法来完成上述任务。

请允许我澄清一下答案:

我完全理解为什么我的回答没有意义,但希望以下解释会有所帮助:

您不必添加列然后运行更新查询,而是通过创建一个带有默认值(您想要更新它的值)的 CONSTRAINT 来分配您希望所有现有记录继承的值。列的创建将导致自动插入该值:

ALTER TABLE myTable ADD CompanyID int NOT NULL CONSTRAINT DF_Constraint DEFAULT 1 (takes about 1min to complete)

本质上是“一石二鸟”。此查询大约需要 1 分钟而不是一个小时(在同一服务器上执行)。现在,要求为所有现有记录添加默认 id = x(每个客户端不同)的新列,恢复 DEFAULT 0 约束,以便所有新插入的记录将采用值如果没有传递值则为 0。因此引述如下:

Then just set the default value back to 0. Now the table will haveCompanyID = 1 for all records. BOOM!

抱歉...这是 7 年前的事了,现在看来这一切真的很愚蠢:)但谁知道呢,也许这可以帮助其他人满足需要创造性黑客的愚蠢需求:)!

最佳答案

主要问题是这需要写入每一行,这些行被大量记录为一个事务。最小化对日志影响的一种方法(如果您的日志文件上没有愚蠢的 10% 自动增长设置,这种方法效果最好)是尽可能地分解工作:

  1. 添加 NULlable 列:

    ALTER TABLE dbo.myTable 
    ADD NewColumnID INT CONSTRAINT DF_Constraint DEFAULT 0;
  2. 批量更新行,例如一次更新 10K 行(这将最大限度地减少日志影响 - 请参阅 this blog post for background):

    BEGIN TRANSACTION;
    SELECT 1;
    WHILE @@ROWCOUNT > 0
    BEGIN
    COMMIT TRANSACTION;
    BEGIN TRANSACTION;

    UPDATE TOP (10000) dbo.myTable SET NewColumnID = 0;
    END
    COMMIT TRANSACTION;
  3. 添加检查约束 ( see these answers for more detail ):

    ALTER TABLE dbo.myTable WITH CHECK
    ADD CONSTRAINT NewCol_Not_Null
    CHECK (NewColumnID IS NOT NULL);

    这里使用NOCHECK可以节省一些时间,但是as Martin explained in his answer ,这是一次性的节省,但从长远来看可能会给您带来很多麻烦。

此问题已在 this previous question 中解决,但是那里接受的答案使用 NOCHECK,没有任何关于不受信任的约束如何影响执行计划的免责声明。

关于sql - 将具有默认值的列添加到大表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20084653/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com