python - Django 批处理/批量更新或创建？-6ren

python - Django 批处理/批量更新或创建？

转载作者：太空狗更新时间：2023-10-29 17:51:04

26

4

我的数据库中有数据需要定期更新。数据源返回当时可用的所有内容，因此将包括数据库中尚不存在的新数据。

当我遍历源数据时，如果可能的话，我不想进行 1000 次单独写入。

有没有类似 update_or_create 但可以批量工作的东西？

一个想法是将 update_or_create 与手动事务结合使用，但我不确定这是否只是将单个写入排队，或者是否会将它们全部组合到一个 SQL 插入中？

或者类似地，可以在一个函数上使用 @commit_on_success() 并在循环中使用 update_or_create 吗？

除了翻译数据并将其保存到模型之外，我没有对数据做任何事情。没有任何东西依赖于循环中存在的那个模型。

最佳答案

由于 Django 添加了对 bulk_update 的支持，现在这在某种程度上是可能的，尽管您需要为每个批处理执行 3 次数据库调用(获取、批量创建和批量更新)。在这里为通用函数创建一个良好的接口(interface)有点具有挑战性，因为您希望该函数既支持高效查询又支持更新。这是我实现的一种方法，专为批量 update_or_create 而设计，其中您有许多公共(public)标识键(可能为空)和一个批处理间不同的标识键。

这是作为基础模型上的方法实现的，但可以独立于基础模型使用。这还假设基础模型在名为 updated_on 的模型上有一个 auto_now 时间戳；如果不是这种情况，假设这种情况的代码行已被注释以便于修改。

为了批量使用它，请在调用它之前将您的更新分 block 。这也是一种绕过数据的方法，这些数据可以具有辅助标识符的少量值之一，而无需更改接口(interface)。

class BaseModel(models.Model):
    updated_on = models.DateTimeField(auto_now=True)
    
    @classmethod
    def bulk_update_or_create(cls, common_keys, unique_key_name, unique_key_to_defaults):
        """
        common_keys: {field_name: field_value}
        unique_key_name: field_name
        unique_key_to_defaults: {field_value: {field_name: field_value}}
        
        ex. Event.bulk_update_or_create(
            {"organization": organization}, "external_id", {1234: {"started": True}}
        )
        """
        with transaction.atomic():
            filter_kwargs = dict(common_keys)
            filter_kwargs[f"{unique_key_name}__in"] = unique_key_to_defaults.keys()
            existing_objs = {
                getattr(obj, unique_key_name): obj
                for obj in cls.objects.filter(**filter_kwargs).select_for_update()
            }
            
            create_data = {
                k: v for k, v in unique_key_to_defaults.items() if k not in existing_objs
            }
            for unique_key_value, obj in create_data.items():
                obj[unique_key_name] = unique_key_value
                obj.update(common_keys)
            creates = [cls(**obj_data) for obj_data in create_data.values()]
            if creates:
                cls.objects.bulk_create(creates)

            # This set should contain the name of the `auto_now` field of the model
            update_fields = {"updated_on"}
            updates = []
            for key, obj in existing_objs.items():
                obj.update(unique_key_to_defaults[key], save=False)
                update_fields.update(unique_key_to_defaults[key].keys())
                updates.append(obj)
            if existing_objs:
                cls.objects.bulk_update(updates, update_fields)
        return len(creates), len(updates)

    def update(self, update_dict=None, save=True, **kwargs):
        """ Helper method to update objects """
        if not update_dict:
            update_dict = kwargs
        # This set should contain the name of the `auto_now` field of the model
        update_fields = {"updated_on"}
        for k, v in update_dict.items():
            setattr(self, k, v)
            update_fields.add(k)
        if save:
            self.save(update_fields=update_fields)

示例用法:

class Event(BaseModel):
    organization = models.ForeignKey(Organization)
    external_id = models.IntegerField(unique=True)
    started = models.BooleanField()


organization = Organization.objects.get(...)
updates_by_external_id = {
    1234: {"started": True},
    2345: {"started": True},
    3456: {"started": False},
}
Event.bulk_update_or_create(
    {"organization": organization}, "external_id", updates_by_external_id
)

可能的竞争条件

上面的代码利用事务和更新选择来防止更新竞争条件。但是，如果两个线程或进程试图创建具有相同标识符的对象，则可能存在插入竞争条件。

简单的缓解措施是确保您的 common_keys 和 unique_key 的组合是数据库强制的唯一性约束(这是此函数的预期用途)。这可以通过使用 unique=True 引用字段的 unique_key 来实现，或者通过 unique_key 与 UniqueConstraint 一起强制执行为唯一的 common_keys 的子集来实现。使用数据库强制的唯一性保护，如果多个线程试图执行冲突的创建，除了一个线程之外的所有线程都将失败并返回 IntegrityError。由于封闭事务，失败的线程将不执行任何更改，并且可以安全地重试或忽略(失败的冲突创建可以被视为先发生然后立即被覆盖的创建)。

如果无法利用唯一性约束，那么您将需要实现自己的并发控制或 lock the entire table。

关于python - Django 批处理/批量更新或创建？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27047630/

26

4

0

文章推荐： python - 从同名脚本导入 Python 包

文章推荐： Angular 路由保护的 AngularFireAuth 重定向问题

文章推荐： c# - 隐藏类型不在 .net 中的 Assembly.GetTypes 中列出

后藤此时出乎意料——批处理
我正在尝试制作一个基于文本的批处理游戏。但是我刚开始写我以前从未遇到过的问题时遇到了一个问题。 :menu :: the game menu - opens when the game starts
PHP 批处理
我正在构建一个社交媒体应用程序，用户需要发布一些内容，然后将发布的内容传播给他/她的 4 个圈子内的所有成员。这意味着查询进入循环。它就像一个家谱。逻辑工作得很好。但现在，当每个圈子中的成员数量不断增
批处理动态sql
１. DECLARE TYPE ref_cursor_type IS ref CURSOR; v_mycursor ref_cursor_type;
loops - [批处理]循环直到按下一个键
我想在这里做的是循环直到按下“x”。我知道 CHOICE 带有 /T 选项。但是 CHOICE 对我要播放的动画的超时时间太长。这是一个例子: @echo off cls set frame=2 :
string - 批处理，比较两个文件并将差异写入另一个文件
我已经寻找解决方案，但我仍然遇到问题。我有两个文件: File1.txt 1111 2222 3333 File2.txt 1111 2222 3333 4444 我想要一个只有差异的输
regex - 批处理 - 将变量与正则表达式进行比较
我正在做一个批处理脚本，必须检查计算机上是否安装了一些程序。为此，我执行 programName --version我将输出存储在一个变量中。问题是当我尝试与正则表达式进行比较时(只知道该程序是否存在
function - 批处理 - 如何从批处理文件中返回一个值？
我知道如何从同一个批处理文件中的函数返回值，但我发现从不同的批处理文件返回值时存在一些问题。下面是一个例子: 文件 1.cmd SETLOCAL ENABLEEXTENSIONS SETLOCAL E
arrays - 批处理 - 从数组中删除元素
我相信这个问题的答案应该很简单。我从一个地方获取目录列表并将它们存储到文本文档中。然后我读取文本文档名称并将它们存储到一个数组中。在此过程结束时，我希望删除数组中的所有条目。我想这样做的原因是因为我
windows - 批处理-FTP删除文件夹早于
我家有两个摄像头，几乎每天都在创建图像。他们将它们保存到我的FTP服务器(Fritz.Box\Nas驱动器)。文件夹结构如下: +-2016-08-24 +-+Subfolder +----+Ano
windows - 如何检查输入是否已在列表中-批处理
在Windows Batch中执行此操作。我有一个名称列表，并要求用户输入其名称。我想检查该名称是否已经存在于列表中，如果存在，则直接进入goto，否则它将名称添加到列表中。 @echo off s
windows - 批处理 For 循环以获取第一个值
我正在编写一个批处理文件，我想运行一个 for 循环，将它的第一个值设置为一个变量。我只需要命令的第一个值，但我找不到另一种方法来做到这一点。我设置它的方式是使用一个 for 循环，然后是一个 do
file - 批处理 - 有没有办法批量同步锁定txt文件？
我需要创建一个批处理文件，使用tracert命令跟踪一些IP，并将跟踪写入txt文件。我希望它很快，所以我想为每个跟踪启动一个新命令，以使所有跟踪请求立即启动。这是我的 ping.bat: @ech
powershell - 转义序列问题-批处理
我想在批处理文件中使用PowerShell命令发送电子邮件。为此，我实现了一个名为 sendMail 的函数。我这样称呼它: setlocal enabledelayedexpansion call:
java - 如何使用java执行selenium脚本/批处理
想要使用 java 执行 selenium 脚本/批处理脚本。根据输入参数调用脚本/批处理脚本。了解如何使用 java 代码运行脚本/批处理。请帮帮我。最佳答案要运行 java 项目中文件中包
java - 批处理 JDBC
我正在练习 JDBC 批处理并遇到错误: 错误1:不支持的功能错误2:执行不能为空或为null Property files include: itemsdao.updateBookName = Up
string - 批处理 - 从字符串中删除最后一个字符
我从 json 文件中得到了以下字符串: 39468856, 现在，我想用这些数字进行计算..因此，我必须删除末尾的 , 。此时我使用以下代码: for /f "skip=24 tokens=2"
sql - sql文件的执行时间-批处理
我有一堆 SQL 查询作为文件存储在磁盘上。它们都是纯 SELECT 查询，换句话说，它们只做读操作。我正在连接到 Oracle 11g 数据库，我想测量所有这些查询的大致执行时间。有没有办法以编
java - 批处理 - 从属性文件读取文件路径时出错
我正在使用 java 来存储属性文件的目录路径。然后在 bat 文件中我使用属性作为变量。问题出在 Java 中，文件路径存储为 SOME_VAR=D\:\\Madhan\\Program Fil
string - 批处理 - 用百分比符号替换
我想用“%”替换字符串中的“mod”:set string=%string:mod=x%我应该输入什么作为“x”？最佳答案您可以通过启用延迟扩展来做到这一点，以便您可以使用 !作为分隔符。然后，将
variables - 批处理 - 在另一个变量中回显变量的值？
在我目前正在处理的批处理文件中，我遇到了一个小问题。我有一个名为 Dimensions(number from 1-5, defined in a for /l loop).txt 的文件，其中包含

首页

博学

6Ren·AI

商城

python - Django 批处理/批量更新或创建？

可能的竞争条件