postgresql，获取条件为真的最近点的项目列表-6ren

postgresql，获取条件为真的最近点的项目列表

转载作者：行者123 更新时间：2023-11-29 13:51:36

25

4

编辑:跳到当前状态的最后编辑

您好!

我有一张带有气象站的 table

车站:

id,
point, (geometry(Point,4326))
ctry (country code)

还有一个包含天气数据的表格:

诺亚:

id                 | integer                     | not null    default    nextval('noaa_id_seq'::regclass)
usaf_wban          | text                        |
station_id         | integer                     |
usaf               | integer                     |
wban               | integer                     |
dt                 | timestamp without time zone | not null
point              | geometry(Point,4326)        |
air_temp           | double precision            |
dew_point          | double precision            |
relative_humidity  | double precision            |
sea_level_pressure | double precision            |
pressure           | double precision            |
wind               | double precision            |
cloudiness         | double precision            |
ghi                | double precision            |

还有另一个 locations_location 我明白了这一点

我对索引进行了很多试验，目前 noaa 表上的索引是:

Indexes:
"noaa_pkey" PRIMARY KEY, btree (id)
"noaa_dt_trunc" btree (date_trunc('hour'::text, dt))
"noaa_point" gist (point)
"noaa_station_ids" btree (station_id)

现在我想为每个参数选择(air_temp，wind ..)此参数不为空且不为 9999 的最近点

此刻我使用了 5 个看起来像这样的单一查询:

 with postal_station AS (
        SELECT id as station_id, s.point FROM stations s WHERE s.ctry = 'AU'
        ORDER BY s.point <-> (
            SELECT point FROM locations_location l
            WHERE l.postal_code = '9201' AND l.country_code = 'AT'
            LIMIT 1
        )
        LIMIT 5
    )
    SELECT
        DISTINCT ON (date_trunc('hour', dt))
        date_trunc('hour', dt) as dt,
        cloudiness
    FROM
        noaa n
    WHERE
        dt BETWEEN '2010-01-01'::timestamp AND '2015-01-01'::timestamp
        AND
        NOT cloudiness = 9999
        AND
        NOT cloudiness is null
        AND
        n.station_id IN (SELECT station_id FROM postal_station)
    ORDER BY dt, point <-> ( SELECT point FROM postal_station LIMIT 1 )

这非常快~150 毫秒，唯一使用的索引是 noaa_station_ids

但目前我将 station_ids 的限制增加了大约 5 :

with postal_station AS (
        SELECT id as station_id, s.point FROM stations s WHERE s.ctry = 'AU'
        ORDER BY s.point <-> (
            SELECT point FROM locations_location l
            WHERE l.postal_code = '9201' AND l.country_code = 'AT'
            LIMIT 1
        )
        LIMIT 6
    )
    SELECT
        DISTINCT ON (date_trunc('hour', dt))
        date_trunc('hour', dt) as dt,
        air_temp
    FROM
        noaa n
    WHERE
        dt BETWEEN '2010-01-01'::timestamp AND '2015-01-01'::timestamp
        AND
        NOT air_temp = 9999
        AND
        NOT air_temp is null
        AND
        n.station_id IN (SELECT station_id FROM postal_station)
    ORDER BY dt, point <-> ( SELECT point FROM postal_station LIMIT 1 )

https://explain.depesz.com/s/9n2M

索引 noaa_station_ids 不再被使用，查询大约需要 ~2429ms

所以这是我的问题:

如果“n.station_id IN”子句包含超过 5 个值，为什么不使用索引 noaa_station_ids？
有没有办法在合理的时间内在一个查询中选择所有需要的值？

感谢您的阅读:)

PS: 启用 postgis 的 Postgres 9.5

编辑:实际上，cte 应该看起来像这样以获得正确的订购点..但这是一个侧面

with postal_point AS (
        SELECT point FROM locations_location l
        WHERE l.postal_code = '9201' AND l.country_code = 'AT'
        LIMIT 1
    ),
    postal_station AS (
        SELECT id as station_id, s.point FROM stations s WHERE s.ctry = 'AU'
        ORDER BY s.point <-> ( SELECT point FROM postal_point )
        LIMIT 5
    )

编辑:在 freenode RhodiumToad 上加入 #postgresql 后帮助我构建了这个查询

with postal_station AS (
        select
            s1.*
        from (
            select point from locations_location l where l.postal_code = '9201' AND l.country_code = 'AT' limit 1
        ) l0,
        lateral (
            select s.id, rank() over (order by s.point <-> l0.point)
            from
            stations s
            where
            s.ctry = 'AU'
        order by s.point <-> l0.point limit 20) s1
    )
    SELECT
        DISTINCT ON (date_trunc('hour', dt))
        date_trunc('hour', dt) as dt,
        air_temp
    FROM
        noaa n
    JOIN
        postal_station p
        ON
        p.id = n.station_id
    WHERE
        dt BETWEEN '2010-01-01'::timestamp AND '2015-01-01'::timestamp
        AND
        NOT air_temp = 9999
        AND
        NOT air_temp is null
    ORDER BY dt, p.rank

即使有更多站也很快~200ms => https://explain.depesz.com/s/kA8

我会在几天内将此帖子标记为已回答。

仍然欢迎优化。

最佳答案

1) Why is the index noaa_station_ids not used if the "n.station_id IN" clause contains more then 5 values ?

2) Is there a way to select all needed values in one query in reasonable time ?

1) 将 cpu_tuple_cost 增加到 0.1 后，索引也用于更多的站点，但随着站点数量的增加，查询仍然变慢

2) atm 我使用 5 个查询并立即发送它们以获取所有需要的数据，连同上次编辑中的查询，查询时间还可以。

查询:

关键是对 cte 中的站点进行排名，然后加入 cte。这种方式排序要快得多。

关于postgresql，获取条件为真的最近点的项目列表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40074097/

25

4

0

文章推荐： ios - 在 SwiftUI 中将形状设为父 View 的大小

文章推荐： postgresql - 如何正确解析 postgresql 中的迭代器？

文章推荐： sql - Postgres 索引

文章推荐： php - PHP 中的 MySQL 访问被拒绝，CLI 将连接

mysql - 获取最近一小时、最近 2 小时.....最近 n 小时的记录
我需要获取过去 24 小时的记录，但不能像这样按小时分组: SELECT HOUR(CompDate) AS hour, COUNT(1) AS action FROM mytable WHERE (
最近/经常联系自动完成的算法？
我们有一个自动完成列表，当您向某人发送电子邮件时会填充该列表，这一切都很好，直到列表变得非常大，您需要输入越来越多的地址才能找到您想要的地址, 这违背了自动完成的目的我在想应该添加一些逻辑，以便自动
android - 我们如何禁用导航软按钮主页，最近
我在 android 的锁屏上工作我们如何禁用导航软按钮，已经尝试了所有方法，systemoverlay但它不起作用，在按下主页按钮时它会终止服务和 Activity 。最佳答案后退按钮可以通过覆
javascript - 最近 7 天
我有一个报告创建时间为 2016-05-30，现在我需要从报告时间开始的最后 7 天。我怎样才能使用时刻？ report_create_time = moment('2016-05-30').form
r - 如何在向量中找到三个最接近(最近)的值？
我想找出向量中最接近的三个数字。就像是 v = c(10,23,25,26,38,50) c = findClosest(v,3) c 23 25 26 我试过 sort(colSums(as.ma
sql - 带附加“最近”行的SQL查询
考虑以下表结构： id speed 1 100 2 200 3 300 4 400 5 500 考虑以下查询："SELECT * FROM records WHERE
iframe - Youtube 嵌入实时聊天不适用于移动设备(最近)
我正在开发一个依赖 YouTube 直播和实时聊天(也来自 YouTube)的网络应用。事情进展顺利，突然嵌入的聊天功能无法在移动设备上运行。我试图在我这边找到一个错误或一些无效的配置，但我找不到。
android - 在“最近”屏幕上更改应用程序的预览图像
我正在制作一个 React Native 应用程序，它有一个安全部分，用户必须在其中输入密码才能解锁 protected 内容。问题是，当用户在锁定该部分之前切换到另一个应用程序时，将生成屏幕截图以及
sql - 最近 3 个月的声明
我有一条 SQL 语句 (SQL Server Management Studio)，我通过仪表板软件将数据传递到 where 语句中。用户可以选择年份(2013 年或现在的 2014 年)和月份(作
javascript - Jquery:最近()行删除不起作用
我有一个脚本可以添加一组行，使您能够在 SharePoint 列表表单中捕获其他访问者的信息。我有两个 anchor 标记，一个用于添加，另一个用于删除。当我添加一个新的访问者时它有效，当我删除访问者
swift - 最近 Swift 更新中关于变异结构的变化？
我正在学习斯坦福 iOS 类(class)，我有一个问题，我认为与最近的更新有关。这是代码部分: func evaluate(ops: [Op]) -> (result: Double?,remain
单击主页按钮时不显示 Android 应用程序 [最近]
我注意到我的应用有一个奇怪的行为。每当我按下主页按钮时，我的应用程序就会被杀死。我没有在应用程序堆栈中看到该应用程序。我可以看到之前启动的其他应用程序。最初我怀疑 android:launchMode
MySQL 最近 7 天被忽略
我需要获取过去 7 天内的所有付费和临时条目，但我总是收到所有退回的内容。我不确定我做错了什么，我已经阅读了这里的很多帖子，但无法理解它是什么。 MySQL 5.6(如果它与我一直在做的事情有什么不同
php - 最近 15 分钟
我的表有一列以 mysql time() 格式格式化。当它是一个值分配给名为 $preRemainOt 的 php 变量时我想重新安排到最近的 15 分钟 function roundTime($w
mysql - 最近 7 天的最后时间戳
我想获取过去 7 天内每天每个产品的最后时间戳。数据库中有数千条记录。我怎样才能通过查询来做到这一点。大约有 25 种不同的产品，每种产品每天大约有 50 个时间戳。表:构建数据 'Timesta
php mysql 按日期排序(最近)
我现在的代码正在从 SQL 中获取移动应用程序中的数据，首先添加显示，我需要将其设置为在我的 Android 应用程序中显示最后添加的第一个。我有如下所示的 api 代码，最新的是根据我的要求显示的，
mysql - 从所有列中选择最后(最近)填充的值
我有一张 table ，说 table 的描述为: | ID | SNO | c1 | c2 | c3 | ___________________________________ |
arrays - 如何找到一个向量中最接近(最近)的值到另一个向量？
我有两个大小相等的向量，例如 A=[2.29 2.56 2.77 2.90 2.05] and B=[2.34 2.62 2.67 2.44 2.52]. 我有兴趣在两个相同大小的向量 A 和 B 中
windows - 最近，我正在进行一个需要驱动器原始读/写扇区的项目
之前，我在这里发布了一个问题，询问有关如何从驱动器读取和写入数据的建议，而不是通过像“aaa.txt”这样的文件标签，而只是扇区..我被建议尝试阅读和写作....但新问题出现了……毛茸茸的参数 int
mysql - 最近 n 个月未登录的用户
我想删除在给定时间段内未登录的用户，但我稍后会根据结果选择时间段。所以我需要报告，其中我将收到过去 1 个月、2 个月...... n 个月内未登录的用户数量。我不太清楚如何在单个 mysql 查

首页

博学

6Ren·AI

商城

postgresql，获取条件为真的最近点的项目列表