sql - Django 中大表的内存效率(常数)和速度优化迭代-6ren

sql - Django 中大表的内存效率(常数)和速度优化迭代

转载作者：太空狗更新时间：2023-10-30 01:38:28

我有一张很大的 table 。
它目前在 MySQL 数据库中。
我使用django。

我需要迭代每个表的元素来预先计算一些特定的数据(也许如果我更好的话，我可以这样做，但这不是重点)。

我想在不断使用内存的情况下尽可能快地保持迭代。

因为它已经清楚地在 Limiting Memory Use in a *Large* Django QuerySet和 Why is iterating through a large Django QuerySet consuming massive amounts of memory? ，对 django 中所有对象的简单迭代将杀死机器，因为它将从数据库中检索所有对象。

寻求解决方案

首先，为了减少内存消耗，您应该确保 DEBUG 为 False(或猴子修补光标: turn off SQL logging while keeping settings.DEBUG? )以确保 django 不会在 connections 中存储内容用于调试。

但即便如此，

for model in Model.objects.all()

是不行的。

甚至没有稍微改进的形式:

for model in Model.objects.all().iterator()

使用 iterator() 通过不在内部存储缓存的结果来节省一些内存(尽管不一定在 PostgreSQL 上!)；但显然仍会从数据库中检索整个对象。

天真的解决方案

solution in the first question是根据 chunk_size 对基于计数器的结果进行切片.有几种写法，但基本上都归结为 OFFSET + LIMIT在 SQL 中查询。

就像是:

qs = Model.objects.all()
counter = 0
count = qs.count()
while counter < count:     
    for model in qs[counter:counter+count].iterator()
        yield model
    counter += chunk_size

虽然这是内存高效的(恒定内存使用与 chunk_size 成正比)，但它在速度方面确实很差:随着 OFFSET 的增长，MySQL 和 PostgreSQL(可能还有大多数数据库)将开始卡住并变慢。

更好的解决方案

this post 中提供了更好的解决方案蒂埃里·谢伦巴赫 (Thierry Schellenbach)
它过滤 PK，这比抵消快得多(多快可能取决于 DB)

pk = 0
last_pk = qs.order_by('-pk')[0].pk
queryset = qs.order_by('pk')
while pk < last_pk:
    for row in qs.filter(pk__gt=pk)[:chunksize]:
        pk = row.pk
        yield row
    gc.collect()

这开始变得令人满意。现在内存 = O(C)，速度 ~= O(N)

“更好”解决方案的问题

只有当 PK 在 QuerySet 中可用时，更好的解决方案才有效。
不幸的是，情况并非总是如此，特别是当 QuerySet 包含不同 (group_by) 和/或值 (ValueQuerySet) 的组合时。

对于这种情况，不能使用“更好的解决方案”。

我们能做得更好吗？

现在我想知道我们是否可以更快地避免有关没有 PK 的 QuerySets 的问题。
也许使用我在其他答案中找到的东西，但仅限于纯 SQL:使用游标 .

由于我对原始 SQL 非常糟糕，特别是在 Django 中，真正的问题来了:

我们如何为大表构建更好的 Django QuerySet 迭代器

我从我所读到的内容中得出的结论是，我们应该使用服务器端游标(显然(参见引用资料)使用标准 Django Cursor 不会获得相同的结果，因为默认情况下 python-MySQL 和 psycopg 连接器都会缓存结果)。

这真的是一个更快(和/或更有效)的解决方案吗？

这可以在 Django 中使用原始 SQL 完成吗？或者我们应该根据数据库连接器编写特定的python代码？

PostgreSQL 中的服务器端游标并在 MySQL

暂时就这么多了……

姜戈 chunked_iterator()
现在，当然最好让这种方法作为 queryset.iterator() 工作。 , 而不是 iterate(queryset) ，并成为 django 核心或至少可插拔应用程序的一部分。

更新感谢评论中的“T”找到 django ticket带有一些附加信息。连接器行为的差异使得最好的解决方案可能是创建一个特定的 chunked方法而不是透明扩展 iterator (对我来说听起来是个好方法)。
一个实现 stub exists ，但一年没有任何作品，而且作者似乎还没有准备好跳进去。

其他引用:

Why does MYSQL higher LIMIT offset slow the query down?

How can I speed up a MySQL query with a large offset in the LIMIT clause?

http://explainextended.com/2009/10/23/mysql-order-by-limit-performance-late-row-lookups/

postgresql: offset + limit gets to be very slow

Improving OFFSET performance in PostgreSQL

http://www.depesz.com/2011/05/20/pagination-with-fixed-order/

How to get a row-by-row MySQL ResultSet in python MySQL中的服务器端游标

编辑:

Django 1.6 正在添加持久数据库连接

Django Database Persistent Connections

在某些情况下，这应该有助于使用游标。仍然超出了我目前的技能(和学习时间)如何实现这样的解决方案..

此外，“更好的解决方案”绝对不适用于所有情况，不能用作通用方法，只能根据具体情况进行调整...

最佳答案

基本答案:将原始 SQL 与服务器端游标一起使用 .

遗憾的是，在 Django 1.5.2 之前，没有正式的方法来创建服务器端 MySQL 游标(不确定其他数据库引擎)。所以我写了一些神奇的代码来解决这个问题。

对于 Django 1.5.2 和 MySQLdb 1.2.4，以下代码将起作用。此外，它的评论很好。

注意:这不是基于公共(public) API，因此它可能会在 future 的 Django 版本中中断。

# This script should be tested under a Django shell, e.g., ./manage.py shell

from types import MethodType

import MySQLdb.cursors
import MySQLdb.connections
from django.db import connection
from django.db.backends.util import CursorDebugWrapper


def close_sscursor(self):
    """An instance method which replace close() method of the old cursor.

    Closing the server-side cursor with the original close() method will be
    quite slow and memory-intensive if the large result set was not exhausted,
    because fetchall() will be called internally to get the remaining records.
    Notice that the close() method is also called when the cursor is garbage 
    collected.

    This method is more efficient on closing the cursor, but if the result set
    is not fully iterated, the next cursor created from the same connection
    won't work properly. You can avoid this by either (1) close the connection 
    before creating a new cursor, (2) iterate the result set before closing 
    the server-side cursor.
    """
    if isinstance(self, CursorDebugWrapper):
        self.cursor.cursor.connection = None
    else:
        # This is for CursorWrapper object
        self.cursor.connection = None


def get_sscursor(connection, cursorclass=MySQLdb.cursors.SSCursor):
    """Get a server-side MySQL cursor."""
    if connection.settings_dict['ENGINE'] != 'django.db.backends.mysql':
        raise NotImplementedError('Only MySQL engine is supported')
    cursor = connection.cursor()
    if isinstance(cursor, CursorDebugWrapper):
        # Get the real MySQLdb.connections.Connection object
        conn = cursor.cursor.cursor.connection
        # Replace the internal client-side cursor with a sever-side cursor
        cursor.cursor.cursor = conn.cursor(cursorclass=cursorclass)
    else:
        # This is for CursorWrapper object
        conn = cursor.cursor.connection
        cursor.cursor = conn.cursor(cursorclass=cursorclass)
    # Replace the old close() method
    cursor.close = MethodType(close_sscursor, cursor)
    return cursor


# Get the server-side cursor
cursor = get_sscursor(connection)

# Run a query with a large result set. Notice that the memory consumption is low.
cursor.execute('SELECT * FROM million_record_table')

# Fetch a single row, fetchmany() rows or iterate it via "for row in cursor:"
cursor.fetchone()

# You can interrupt the iteration at any time. This calls the new close() method,
# so no warning is shown.
cursor.close()

# Connection must be close to let new cursors work properly. see comments of
# close_sscursor().
connection.close()

关于sql - Django 中大表的内存效率(常数)和速度优化迭代，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14144408/

文章推荐： database - Filemaker 的优点和缺点是什么？

文章推荐： python - Python LinkedList 中的错误内存分配

文章推荐： python - python中被覆盖的变量会发生什么？

文章推荐： database - 何时使用键值数据存储与更传统的关系数据库？

jquery .each 迭代
如果您有超过 1 个具有相同类名的(动态)文本框，并使用 jquery 循环遍历每个所述文本框，您是否可以假设每次选择文本框的顺序都是相同的？示例: 文本框 1 值 = 1文本框 2 值 = 2文本
Python 迭代
有人知道为什么这段代码无法顺利运行吗？它似乎不喜欢使用yield关键字进行迭代:我正在尝试从任何级别的列表或字典中挖掘所有数字(对列表特别感兴趣)。在第二次迭代中，它找到 [2,3] 但无法依次打印
PHPExcel动态单元格生成-迭代
我关于从 mysql 数据库导出数据并将其保存到 Excel 文件(多表)的创建脚本。我需要让细胞动态基因化。该脚本正确地显示了标题，但数据集为空。当我“回显”$value 变量时，我检查了数据是否存
Python 迭代？
我正在尝试在 Python 中运行模拟，由此我绘制了一个数组的随机游走图，给定了两个变量参数的设定水平。但是，我遇到了一个问题，我不确定如何迭代以便生成 250 个不同的随机数以插入公式。例如我已经
jquery .each 迭代
我是学习 jquery 的新手，所以如果这是一个相对简单的问题，我深表歉意。我有一个 ID 为 ChartstoDisplay 的 asp.net 复选框列表。我正在尝试创建 jquery 来根据是否
定义有效案例的算法/迭代
我正在尝试根据在任意数量的部分中所做的选择找出生成有效案例列表的最佳方法。也许它不是真正的算法，而只是关于如何有效迭代的建议，但对我来说这似乎是一个算法问题。如果我错了，请纠正我。实现实际上是在 Ja
scapy - DNSRR 迭代
如果我使用 sr1 为 www.google.com 发送 DNSQR，我会收到几个 DNSRR(s) 作为回复，例如(使用 ans[DNSRR].show() 完成): ###[ DNS Resou
集合字段上的 JPA 迭代
假设有这样一个实体类 @Entity public class User { ... public Collection followers; ... } 假设用户有成千上万的用户关注者。我想分页..
jquery - 如何摆脱 .each() 迭代
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: Nested jQuery.each() - continue/break 这是我的代码: var steps =
字典上的 F# 迭代
我刚从 F# 开始，我想遍历字典，获取键和值。所以在 C# 中，我会说: IDictionary resultSet = test.GetResults; foreach (DictionaryEn
c++ - 迭代 ifstream
我知道已经有很多关于如何迭代 ifstream 的答案，但没有一个真正帮助我找到解决方案。我的问题是:我有一个包含多行数据的txt文件。 txt 文件的第一行告诉我其余数据是如何组成的。例如这是我的
javascript - 迭代 If 语句
我有 12 个情态动词。我想将每个模态的 .modal__content 高度与 viewport 高度进行比较，并且如果特定模态 .modal__content 高度 vh addClass("c
if 语句中的 javascript 迭代
在此JSFiddle (问题代码被注释掉)第一次单击空单元格会在隐藏输入中设置一个值，并将单元格的背景颜色设置为绿色。单击第二个空表格单元格会设置另一个隐藏输入的值，并将第二个单元格的背景颜色更改为红
java - 如何访问存储在单链表节点中的对象的特定变量(迭代)
这是一个非常具体的问题，我似乎找不到任何特别有帮助的内容。我有一个单链表(不是一个实现的链表，这是我能找到的全部)，其中节点存储一个 Student 对象。每个 Student 对象都有变量，尽管我在
delphi - 迭代 IHTMLElementCollection
有没有办法迭代 IHTMLElementCollection？比如 var e : IHTMLLinkElement; elementCollection:IHTMLElementCollect
java - 迭代 HashMap ？
我正在尝试用 Java 取得高分。基本上我想要一个 HashMap 来保存 double 值(因此索引从最高的 double 值开始，这样我更容易对高分进行排序)，然后第二个值将是客户端对象，如下所示
sas - 限制 %do %while 迭代
我想在宏函数中运行 while/until 循环，并限制其最大迭代次数。我找到了如何在“通常”sas 中执行此操作: data dataset; do i=1 to 10 until(con
Java - 迭代 HashMap ？
Iterator iterator = plugin.inreview.keySet().iterator(); while (iterator.hasNext()) { Player key
lambda - 序言:迭代
晚上好我有一个简单的问题，我警告你我是序言的新手。假设有三个相同大小的列表，每个列表仅包含 1、0 或 -1。我想验证对于所有 i，在三个列表的第 i 个元素中，只有一个非零。此代码针对固定的 i
recursion - 方案尾递归/迭代
我在 scheme 中构建了一个递归函数，它将在某些输入上重复给定函数 f, n 次。 (define (recursive-repeated f n) (cond ((zero? n) iden

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

sql - Django 中大表的内存效率(常数)和速度优化迭代