postgresql - 使用 order_by 和分页的 Flask-SqlAlchemy 查询非常慢-6ren

postgresql - 使用 order_by 和分页的 Flask-SqlAlchemy 查询非常慢

转载作者：行者123 更新时间：2023-11-29 11:29:40

27

4

我使用Python=2.7.3, PostgreSQL=9.3, Flask=0.10.0, SQLAlchemy =1.10.12，Flask-SQLAlchemy=2.1 和psycopg2=2.5.4

我在 PostgreSQL 中有一个 10 亿条记录的表，我必须对其进行分页并在其中提供搜索:

class MyTable(db.Model):
    """ My Table """
    id = db.Column(db.Integer, primary_key=True)
    code = db.Column(db.String(100), index=True, unique=True)
    name = db.Column(db.String(512), index=True)
    __tablename__ = 'my_table'

所以我在请求数据的代码中做了以下操作:

records = MyTable.query.filter(**filter_list).\
    order_by(asc('code')).paginate(page, per_page, False)

关键是，如果 per_page=10 和 page=1158960 即使根本没有过滤，也只需要 13 秒才能为最后一页选择 10 条最后记录。

根据我在 flask-sqlalchemy 源代码中发现的内容，.paginate 是这样做的:

.order_by(asc('code')).limit(per_page).offset((page - 1) * per_page)

生成的 SQL 查询如下所示:

SELECT my_table.id, my_table.code, my_table.name 
FROM my_table ORDER BY my_table.code ASC 
LIMIT 10 OFFSET 1158960

当我在服务器控制台上启动它时，我意识到问题出在 ORDER BY 子句中。不知何故，它必须首先使用 ORDER BY 对整个表进行排序，然后才使用 LIMIT 和 OFFSET。但这太慢了。

解释(分析):

"Limit  (cost=470520.26..470520.26 rows=1 width=178) (actual time=12460.060..12460.061 rows=8 loops=1)"
"  ->  Sort  (cost=467626.96..470520.26 rows=1157320 width=178) (actual time=11343.220..12424.686 rows=1158968 loops=1)"
"        Sort Key: code"
"        Sort Method: external merge  Disk: 218312kB"
"        ->  Seq Scan on my_table  (cost=0.00..42518.20 rows=1157320 width=178) (actual time=0.026..378.637 rows=1158968 loops=1)"
"Total runtime: 12475.160 ms"

如果您只是从该 SQL 请求中删除 ORDER BY，它会在 270 毫秒内完成!

"Limit  (cost=42518.20..42518.20 rows=1 width=178) (actual time=269.940..269.942 rows=8 loops=1)"
"  ->  Seq Scan on my_table  (cost=0.00..42518.20 rows=1157320 width=178) (actual time=0.030..246.200 rows=1158968 loops=1)"
"Total runtime: 269.992 ms"

我能做些什么吗？

最佳答案

好的，我找到了解决这个问题的方法。

当我执行完全相同的查询但使用 SET enable_seqscan=off; 时，它会强制 PostgreSQL 使用索引扫描而不是序列扫描，并且它变得很多更快!

SET enable_seqscan=off;
SELECT my_table.id, my_table.code, my_table.name 
FROM my_table ORDER BY my_table.code ASC 
LIMIT 10 OFFSET 1158960

**EXPLAIN (ANALYZE):**

"Limit  (cost=1814764.86..1814777.39 rows=8 width=131) (actual time=616.543..616.545 rows=8 loops=1)"
"  ->  Index Scan using ix_my_table_code on my_table  (cost=0.43..1814777.39 rows=1158968 width=131) (actual time=0.065..590.898 rows=1158968 loops=1)"
"Total runtime: 616.568 ms"

所以现在的重点是——如何设置 PostgreSQL 配置以使其在不强制使用索引扫描的情况下使用索引扫描？我想答案是 - “Planner Cost Constants”。对他们有什么建议吗？

2016 年 4 月 13 日更新:

我终于搞清楚了情况，找到了解决办法。在我的例子中，一切都通过在 postgresql.conf 中设置 Planner Cost Constants 来解决:

seq_page_cost = 1.0
random_page_cost = 1.0
cpu_tuple_cost = 0.01
cpu_index_tuple_cost = 0.0001
cpu_operator_cost = 0.0025
effective_cache_size = 1024MB

此外，还有许多建议将服务器整个 RAM 的 effective_cache_size 设置为 3/4。无论如何，通过这些设置，Planner 总是在大表上使用索引扫描。所以计时现在是 200-300 毫秒。

问题已解决。

关于postgresql - 使用 order_by 和分页的 Flask-SqlAlchemy 查询非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36502633/

27

4

0

文章推荐： java - RecyclerView和CardView实现onClick

文章推荐： ios - 如何将 ARSCNView 适配到 iPhone X 上的 SafeArea？

文章推荐： postgresql - Postgres : generate series of timestamps respecting time zone

Django order_by 多对多关系
如何根据多对多关系条件是否为真来对查询集进行排序？即 class Publication(models.Model): name = models.CharField(max_length=
Django 注释不适用于 order_by
我想获取 MyModel order_by('-end_date') 的最后 100 条记录，并对不同的获胜者类型进行 SUM 注释 MyModel.objects.all()[:100].order
Django order_by，多个字段和优先级
我想根据两个因素对 QuerySet 进行排序。 A 和 B，但它应该将 A 优先于 B。也就是说，它应该对 A 进行排序，但是如果 A 对 QuerySet 中的两个对象相等，则它应该对因子 B 对
django - 是否可以使用可调用的 order_by ？
重复: Using a Django custom model method property in order_by() 我有两个模型；一个存储帖子，另一个存储对这些帖子进行的投票，使用外键字段进行
Django Order_BY 自定义函数
我在模型 roll_numb 中有字段。 roll_numb 的值如下。 070-001 070-007 070-343 080-002 080-008 当我 order_by roll_numb 时
elixir - 预加载中的ecto order_by
所以我在使用order_by函数的查询中使用preload遇到麻烦。通常我在order_by函数中使用list_member list_member def list_members() do qu
MySQL order_by 优化
我们有一个复杂的查询，它使用跨表和 order_by 的联接。示例如下: select distinct `accounts`.`id`, `accounts`.`number_of_lis
mysql - 如何根据特定数据进行 order_by
我有一个这样的数据库 order_id | date | qty ------------------------------------ a |2018-1
SQL order_by 表达式
假设我有一列包含 1-100 之间的浮点值。我希望能够将该值转换为 1-10 之间精度较低的整数，然后根据这个新值对结果进行排序。想要降低排序的精确度似乎很奇怪，但 SQL 语句按 2 列排序，如
php - order_by() 对于距离范围数据无法正常工作
我有范围内的距离数据，例如 5-10、0-5、10-15、我正在使用此查询来按排序顺序获取数据: $this->db->select("distance_from_mall"); $this->db
Django - order_by() 字符和数字
我必须对包含主机名的对象列表进行排序。主机名采用以下格式:h1、h5、h10、h12、h12-abc、h1000、x10 如果我使用 order_by('hostname') 它会这样排序: h1,
MySQL ORDER_BY 字符串中的部分整数
我在 MySQL 数据库中有一系列“编号”的 varchar 字段: +-----------+ | name | +-----------+ | thing 1 | | thing
mongodb - order_by mongoengine中listfield的长度
我不想运行查询来获取所有超过 6 个 com 的文章，然后根据 com 列表的长度进行排序，为此，我这样做了: ArticleModel.objects.filter(com__6__exists=
mysql - Django order_by 导致查询很慢
我有一个模型 Line，其中包含一个 total_value 和一个 group 字段。我使用以下代码获取给定组中具有最高值的 10 行: group_lines = Line.objects.fil
django - 了解多值字段的 order_by (Django)
已阅读 django docs on order_by 有一个注释/警告(如果我理解正确的话)说: 如果您使用多值字段对查询集进行排序，则该查询集中具有多个相关项的每个元素都将多次添加到由 order
django - `order_by`调用后Django Paginate中的重复元素
我正在使用 Django 1.7.7。我想知道是否有人经历过这种情况。这是我的查询: events = Event.objects.filter( Q(date__gt=my_date) |
wordpress - Woocommerce 产品查询 - order_by
我在我的 template.php 文件中使用查询来显示 wooCommerce按类别分类的产品。我的查询如下所示: 'product', 'stock' => 1, 'pos
Django:使用 order_by 对数值进行排序
我处于必须通过用于存储街道地址的 CharField 输出相当大的对象列表的情况。我的问题是，显然数据是按 ASCII 代码排序的，因为它是一个 Charfield，具有可预测的结果......它像
django distinct 和 order_by
Foo.objects.all().distinct('foo')不会删除重复项 Foo.objects.all().order_by().distinct('foo')确实删除它们。我有 Meta
Django分页随机: order_by ('?' )
我喜欢 Django，喜欢它实现的分页功能。但是，我在尝试跨多个页面拆分随机排序的查询集时遇到了问题。例如，我在查询集中有 100 个元素，并希望一次显示 25 个。将上下文对象作为随机排序的查询集

首页

博学

6Ren·AI

商城

postgresql - 使用 order_by 和分页的 Flask-SqlAlchemy 查询非常慢