mysql - 提高 mysql 对 google cloud sql 上的表的查询性能-6ren

mysql - 提高 mysql 对 google cloud sql 上的表的查询性能

转载作者：行者123 更新时间：2023-11-28 23:58:01

26

4

我有一个包含“137678997”条记录但没有唯一主键的表。这是我的表格说明。

+---------------+---------------+------+-----+---------+-------+
| Field         | Type          | Null | Key | Default | Extra |
+---------------+---------------+------+-----+---------+-------+
| domain        | varchar(50)   | YES  | MUL | NULL    |       |
| guid          | varchar(100)  | YES  |     | NULL    |       |
| sid           | varchar(100)  | YES  | MUL | NULL    |       |
| url           | varchar(2500) | YES  |     | NULL    |       |
| ip            | varchar(20)   | YES  |     | NULL    |       |
| is_new        | varchar(20)   | YES  |     | NULL    |       |
| ref           | varchar(50)   | YES  |     | NULL    |       |
| user_agent    | varchar(255)  | YES  |     | NULL    |       |
| stats_time    | datetime      | YES  |     | NULL    |       |
| country       | varchar(50)   | YES  |     | NULL    |       |
| region        | varchar(50)   | YES  |     | NULL    |       |
| city          | varchar(50)   | YES  |     | NULL    |       |
| city_lat_long | varchar(50)   | YES  |     | NULL    |       |
| email         | varchar(100)  | YES  |     | NULL    |       |
+---------------+---------------+------+-----+---------+-------+

域、电子邮件、stats_time 的索引

我的sql查询是

SELECT p1.guid, p1.email,MAX(mx_time) as latest_time, 
       p1.city_lat_long, p1.user_agent, 
       p1.city, p1.region, p1.country 
FROM(
  SELECT guid, email,
         MAX(stats_time)as mx_time, 
         city_lat_long, user_agent, 
         city, region, country 
    FROM page_views 
    WHERE domain ='our' 
      AND DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) 
        BETWEEN DATE('2013-06-21 00:00:00') 
        AND DATE('2013-08-21 00:00:00') 
    GROUP BY guid) p1 
WHERE p1.email !="" 
GROUP BY email 

UNION ALL 

SELECT p2.guid, p2.email,
       mx_time, p2.city_lat_long, 
       p2.user_agent, p2.city, 
       p2.region, p2.country 
FROM(
  SELECT guid, email,
         MAX(stats_time) as mx_time, 
         city_lat_long, user_agent, 
         city, region, country 
  FROM page_views 
  WHERE domain ='our' 
    AND DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) 
      BETWEEN DATE('2013-06-21 00:00:00') 
      AND DATE('2013-08-21 00:00:00') 
  GROUP BY guid) p2 
WHERE p2.email="";

抱歉这个大查询，目的是获取域的最新访问者(Max(stats_time))。在这里，我使用了 UNION ALL，因为我也必须获取所有匿名用户，而我无法通过电子邮件 ID 对他们进行分组。

我还使用没有 UNION ALL 的简单选择列进行了测试，这花费了超过 15 分钟。如何提高表上的查询性能？它实际上是一个具有 D2 层(1 GB RAM)的谷歌云 sql。非常感谢您的建议，我是 Mysql 的新手。

编辑::

SELECT p2.guid, p2.email,mx_time, p2.city_lat_long, p2.user_agent, p2.city, p2.region, p2.country
FROM
(SELECT guid, email,MAX(stats_time)as mx_time, city_lat_long, user_agent, city, region, country FROM page_views WHERE domain ='our' AND DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) BETWEEN DATE('2013-06-21 00:00:00')  AND DATE('2013-08-21 00:00:00') GROUP BY guid) p2 where p2.email=""

此查询为我提供了没有电子邮件的访问者的行。

和

SELECT p1.guid, p1.email,MAX(mx_time) as latest_time, p1.city_lat_long, p1.user_agent, p1.city, p1.region, p1.country
FROM
(SELECT guid, email,MAX(stats_time)as mx_time, city_lat_long, user_agent, city, region, country FROM page_views WHERE domain ='our' AND DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) BETWEEN DATE('2013-06-21 00:00:00')  AND DATE('2013-08-21 00:00:00') GROUP BY guid) p1 where p1.email !="" GROUP BY email

这一个给我非空的行，并按电子邮件分组。这两个是 UNION ALL，因为我需要特定日期范围内的所有匿名访问者 + 已知访问者(电子邮件!=“”)。

谢谢你:)

最佳答案

很难提高查询性能，因为您在 Where 子句 中有很多函数，但对您的性能不利，子查询中的最大函数和分组依据 我认为是也很糟糕， Union All 给你重复。实际上，我可以建议您避免在 Where 子句中进行日期时间转换 Here有用的链接如何避免它。

我想补充一些建议，在没有 Max 和 Group By 的情况下，如何获得域的最新访问者(Max(stats_time)) - 最好使用 Order By desk 和 Limit .

如果我误解了你，你可以添加你的逻辑和预期结果，我们会尝试更改你的查询。

谢谢。

更新

这是你的第一个查询

SELECT p2.guid, p2.email,mx_time, p2.city_lat_long, p2.user_agent, p2.city, p2.region, p2.country
FROM (SELECT guid, email,MAX(stats_time)as mx_time, 
                    city_lat_long, user_agent, city, region, country 
      FROM page_views 
      WHERE domain ='our' 
            AND DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) 
            BETWEEN DATE('2013-06-21 00:00:00')  AND DATE('2013-08-21 00:00:00') 
      GROUP BY guid) p2 
where p2.email=""

你可以把它改成

SELECT guid, email,MAX(stats_time)as mx_time, city_lat_long, user_agent, city, region, country 
FROM page_views 
WHERE domain ='our' 
  AND DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) 
  BETWEEN DATE('2013-06-21 00:00:00')  AND DATE('2013-08-21 00:00:00')
  AND email=""
GROUP BY guid

此时你不需要两个查询只是和 email="" 到 where 子句

更新 II

你应该避免像这样在 Where clae 中转换数据 DATE(CONVERT_TZ(stats_time,'+00:00','+05:30')) BETWEEN DATE('2013-06-21 00:00:00') AND DATE('2013-08-21 00:00:00')

我们可以把它改成stats_time > '2013-06-21 00:00:00' AND stats_time <= '2013-08-21 00:00:00'吗？

正如我所说，您应该阅读 This Link 这对你有好处!

关于mysql - 提高 mysql 对 google cloud sql 上的表的查询性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30973440/

26

4

0

文章推荐： ios - 每行 3 个项目的 UICollectionViewCell 大小

文章推荐： php - 将今天的日期与数据库中的 unix 时间戳值进行比较

文章推荐： php - 尝试将 mysql_* 重写为 pdo

文章推荐： php - MySQL 返回 0 行，其中行具有 & 符号

google-cloud-platform - 从 Google Cloud 上的 Cloud Run 访问 Cloud SQL
我有一个 Cloud Run 服务，它通过 SQLAlchemy 访问 Cloud SQL 实例.但是，在 Cloud Run 的日志中，我看到 CloudSQL connection failed.
cloud - 为什么叫 "Cloud"？
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 4年前关闭。 Improve t
google-cloud-platform - 如何为 Cloud Build 用于 Cloud Run 部署的 Cloud Storage 存储分区指定区域？
在将 docker 容器镜像部署到 Cloud Run 时，我可以选择一个区域，这很好。 Cloud Run 将构建委托(delegate)给 Cloud Build，后者显然会创建两个存储桶来实现这
google-cloud-platform - Cloud PubSub 重复消息触发的 Cloud Functions
我正在尝试将 Cloud Functions 用作由 PubSub 触发的异步后台工作程序，并进行更长时间的工作(以分钟为单位)。完整代码在这里https://github.com/zdenulo/c
user-data - cloud-init执行顺序不尊重/etc/cloud/cloud.cfg？
这是/etc/cloud/cloud.cfg的内容Ubuntu云16.04镜像: # The top level settings are used as module # and system co
google-cloud-platform - 从 Cloud Functions 启动 Cloud Dataflow
如何从 Google Cloud Function 启动 Cloud Dataflow 作业?我想使用 Google Cloud Functions 作为启用跨服务组合的机制。最佳答案我已经包含了
google-cloud-platform - 如何从 Cloud Shell 连接到 Cloud SQL？
我想使用 Cloud Shell 在我的第二代 Cloud Sql 实例上运行数据库迁移。我找到了一个 example in the docs关于如何使用 gcloud 进行连接.但是当我运行命令时
google-cloud-platform - Cloud Dataproc 和其他 Google Cloud 产品的身份验证错误
我正在尝试使用 Google Cloud PubSub和我的 Google Cloud Dataproc群集，我收到如下身份验证范围错误: { "code" : 403, "errors" :
google-cloud-platform - 使用用户帐户凭据访问私有(private) Cloud Run/Cloud Functions
这是我的用例。我已经有一个以私有(private)模式部署的 Cloud Run 服务。 (与云功能相同的问题) 我正在开发使用此 Cloud Run 的新服务。我在应用程序中使用默认凭据进行身份验
google-cloud-sql - 如何从 Cloud Run 安全地连接到 Cloud SQL？
如何连接到 Cloud SQL 上的数据库，而无需在容器中添加我的凭据文件？最佳答案使用 UNIX 域套接字 (Java) 从云运行(完全托管)连接到云 SQL At this time Clou
google-cloud-ml - 如何在google-cloud-ml作业或Google Cloud Storage中加载numpy npz文件？
我有一个google-cloud-ml作业，需要从gs存储桶加载numpy .npz文件。我遵循了this example上关于如何从gs加载.npy文件的操作，但是由于.npz文件已压缩，因此它对我
google-cloud-platform - Cloud build trigger 看不到另一个项目的 Cloud Source Repository
我想创建链接到另一个项目中的 Cloud Source Repository 的 Cloud Build 触发器。但是当我在应该选择存储库的步骤中时，列表是空的。我尝试了不同的许可，但没有运气。谁能告
google-cloud-functions - 从 Cloud Function 本身获取 Cloud Function 名称
向 Twilio 发送 SMS 时，Twilio 会向指定的 URL 发送多个请求，以通过 Webhook 提供该 SMS 传送的状态。我想让这个回调异步，所以我开发了一个 Cloud Functio
google-cloud-firestore - 将 Cloud Firestore 项目迁移到另一个 Cloud Firestore 项目
我需要更改我的项目 ID，因为要验证的 Firebase 身份验证链接在链接上显示了项目 ID，并且由于品牌 reshape ，项目名称已更改。根据我发现的信息，更改项目 ID 似乎不太可能。我正在考
google-cloud-platform - 如何在 Cloud Run 中自动部署来自 Cloud Build 的最新镜像
用于部署我的 Angular 应用程序的 CI/CD 管道已关闭，但我看到 Google Cloud Run 在容器镜像更新后没有部署新修订版。我已将 Cloud Build 设置为在 GitHub
google-cloud-platform - 将 Cloud Armor 与 Cloud Run 结合使用并避免绕过
报价https://cloud.google.com/load-balancing/docs/https/setting-up-https-serverless#enabling While Goog
google-cloud-platform - Cloud Spanner 读取与 Cloud Spanner SQL API
Cloud Spanner 提供了两种不同的 API。 Cloud Spanner 读取与 Cloud Spanner SQL API 之间有什么区别？最佳答案在幕后，它们都使用相同的执行机制，因
google-cloud-platform - Google Cloud Spanner 和 Cloud SQL 之间有什么区别？
我是 GCP 堆栈的新手，所以我对用于存储数据的 GCP 技术数量感到非常困惑: https://cloud.google.com/products/storage 虽然上面的文章中没有提到googl
google-cloud-platform - 如何避免从 Cloud Function 到 Cloud SQL 的网络出站费用？
我发现 Google Cloud Functions 的网络出站费用令人惊讶，我正在尝试了解发生这种情况的原因以及如何避免这种情况。 Stackdriver 监控表明有问题的函数是我的 ingest
google-cloud-sql - Prisma DATABASE_URL 错误(Cloud Run + Cloud SQL)
我使用 Prisma使用 Cloud Run 和 Cloud SQL。在向 prisma.schema 提供 DATABASE_URL 后，它会在运行时抛出一个错误。 Can't reach data

首页

博学

6Ren·AI

商城

mysql - 提高 mysql 对 google cloud sql 上的表的查询性能