php - 如何提高此数据分析的速度？-6ren

php - 如何提高此数据分析的速度？

转载作者：可可西里更新时间：2023-11-01 07:50:06

我需要优化我分析相当大的数据集的方式，但我不确定接下来的步骤是什么。我已经对 MySQL 配置进行了相当多的调整。

我有这个 InnoDB 表:

+----------------+--------------+------+-----+---------+----------------+
| Field          | Type         | Null | Key | Default | Extra          |
+----------------+--------------+------+-----+---------+----------------+
| id             | int(250)     | NO   | PRI | NULL    | auto_increment |
| memory         | int(15)      | YES  | MUL | NULL    |                |
| q              | varchar(250) | YES  | MUL | NULL    |                |
| created        | datetime     | YES  |     | NULL    |                |
| modified       | datetime     | YES  |     | NULL    |                |
| dt             | datetime     | YES  | MUL | NULL    |                |
| site_id        | int(250)     | NO   | MUL | NULL    |                |
| execution_time | int(11)      | YES  | MUL | NULL    |                |
+----------------+--------------+------+-----+---------+----------------+

这是 10 行的示例:

+-----------+----------+-----------------+---------------------+---------------------+---------------------+---------+----------------+
| id        | memory   | q               | created             | modified            | dt                  | site_id | execution_time |
+-----------+----------+-----------------+---------------------+---------------------+---------------------+---------+----------------+
| 266864867 | 38011080 | node/16432/edit | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:04:44 |     890 |           1534 |
| 266864868 | 46090184 | node/16432      | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:04:46 |     890 |            840 |
| 266864869 | 50329248 | node/16432/edit | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:05:16 |     890 |           2500 |
| 266864870 | 38011272 | node/16432/edit | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:07:01 |     890 |           1494 |
| 266864871 | 46087732 | node/16432      | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:07:03 |     890 |            850 |
| 266864872 | 30304428 | node/303        | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:07:12 |     890 |            113 |
| 266864873 | 50329412 | node/16432/edit | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:07:25 |     890 |           2465 |
| 266864874 | 28253112 | front_page      | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:07:25 |     890 |             86 |
| 266864875 | 28256044 | front_page      | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:08:32 |     890 |             81 |
| 266864876 | 38021072 | node/16432/edit | 2011-12-05 23:22:23 | 2011-12-05 23:22:23 | 2011-12-06 00:08:55 |     890 |           1458 |
+-----------+----------+-----------------+---------------------+---------------------+---------------------+---------+----------------+

这是表索引:

+----------+------------+----------------------+--------------+----------------+-----------+-------------+----------+--------+------+------------+---------+
| Table    | Non_unique | Key_name             | Seq_in_index | Column_name    | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment |
+----------+------------+----------------------+--------------+----------------+-----------+-------------+----------+--------+------+------------+---------+
| memories |          0 | PRIMARY              |            1 | id             | A         |     8473766 |     NULL | NULL   |      | BTREE      |         |
| memories |          1 | index_dt             |            1 | dt             | A         |     1210538 |     NULL | NULL   | YES  | BTREE      |         |
| memories |          1 | index_execution_time |            1 | execution_time | A         |        2344 |     NULL | NULL   | YES  | BTREE      |         |
| memories |          1 | index_memory         |            1 | memory         | A         |     8473766 |     NULL | NULL   | YES  | BTREE      |         |
| memories |          1 | index_site_id        |            1 | site_id        | A         |          16 |     NULL | NULL   |      | BTREE      |         |
| memories |          1 | index_q              |            1 | q              | A         |      338950 |     NULL | NULL   | YES  | BTREE      |         |
+----------+------------+----------------------+--------------+----------------+-----------+-------------+----------+--------+------+------------+---------+

它为许多不同的站点 (site_id) 存储了超过一百万条记录。对于给定站点，可能有 20,000 行。存储的信息是单个页面请求的性能指标。如果重要，非显而易见的字段:内存字段是脚本使用了多少内存，q 是路径，site_id 是对表 Sites 的引用。

我对这些数据运行了两个缓慢的查询。第一个获得 25 个内存占用最多的页面:

Select 
  Memory.q, count(*) as count, 
  AVG(Memory.memory) as average_memory, 
  MAX(Memory.memory) as peak_memory,
  AVG(Memory.execution_time) as average_execution_time,
  MAX(Memory.execution_time) as peak_execution_time 
FROM Memory 
WHERE site_id = $some_site_id 
ORDER BY average_memory DESC 
GROUP BY Memory.q
LIMIT 25

第二个查询获取给定站点的最慢的平均 25 个页面:

Select 
  Memory.q, count(*) as count, 
  AVG(Memory.memory) as average_memory, 
  MAX(Memory.memory) as peak_memory,
  AVG(Memory.execution_time) as average_execution_time,
  MAX(Memory.execution_time) as peak_execution_time 
FROM Memory 
WHERE site_id = $some_site_id 
ORDER BY average_execution_time DESC 
GROUP BY Memory.q
LIMIT 25

我最近将表从 MyISAM 转换为 InnoDB，这样这些读取就不会锁定表。这导致更新此表的操作排队和滞后。

除了在问题上投入更多内存(以增加 InnoDB 缓存大小)之外，我想看看是否还有其他选择。我从未使用过 NoSQL 数据库，但据我了解，它们在这里不会有太大帮助，因为我使用聚合函数和查询。

如果重要的话，该应用程序是用 PHP 编写的。

对于处理此数据的存储和分析的更好方法有什么想法吗？

更新:

分析查询显示速度慢的原因在于复制到临时表。我将研究如何使这一步更快。

+--------------------------------+----------+
| Status                         | Duration |
+--------------------------------+----------+
| starting                       | 0.000030 |
| checking query cache for query | 0.000065 |
| Opening tables                 | 0.000013 |
| System lock                    | 0.000004 |
| Table lock                     | 0.000014 |
| init                           | 0.000032 |
| optimizing                     | 0.000010 |
| statistics                     | 0.008119 |
| preparing                      | 0.000042 |
| Creating tmp table             | 0.000317 |
| executing                      | 0.000005 |
| Copying to tmp table           | 5.349280 |
| Sorting result                 | 0.006511 |
| Sending data                   | 0.000092 |
| end                            | 0.000005 |
| removing tmp table             | 0.001510 |
| end                            | 0.000007 |
| query end                      | 0.000004 |
| freeing items                  | 0.001163 |
| logging slow query             | 0.000006 |
| cleaning up                    | 0.000006 |
+--------------------------------+----------+
21 rows in set (0.01 sec)

mysql> show profile cpu for query 4;
+--------------------------------+----------+----------+------------+
| Status                         | Duration | CPU_user | CPU_system |
+--------------------------------+----------+----------+------------+
| starting                       | 0.000030 | 0.000000 |   0.000000 |
| checking query cache for query | 0.000065 | 0.000000 |   0.000000 |
| Opening tables                 | 0.000013 | 0.000000 |   0.000000 |
| System lock                    | 0.000004 | 0.000000 |   0.000000 |
| Table lock                     | 0.000014 | 0.000000 |   0.000000 |
| init                           | 0.000032 | 0.000000 |   0.000000 |
| optimizing                     | 0.000010 | 0.000000 |   0.000000 |
| statistics                     | 0.008119 | 0.001000 |   0.000000 |
| preparing                      | 0.000042 | 0.000000 |   0.000000 |
| Creating tmp table             | 0.000317 | 0.000000 |   0.000000 |
| executing                      | 0.000005 | 0.000000 |   0.000000 |
| Copying to tmp table           | 5.349280 | 0.687896 |   0.412937 |
| Sorting result                 | 0.006511 | 0.004999 |   0.001999 |
| Sending data                   | 0.000092 | 0.000000 |   0.000000 |
| end                            | 0.000005 | 0.000000 |   0.000000 |
| removing tmp table             | 0.001510 | 0.000000 |   0.001000 |
| end                            | 0.000007 | 0.000000 |   0.000000 |
| query end                      | 0.000004 | 0.000000 |   0.000000 |
| freeing items                  | 0.001163 | 0.000000 |   0.001000 |
| logging slow query             | 0.000006 | 0.000000 |   0.000000 |
| cleaning up                    | 0.000006 | 0.000000 |   0.000000 |
+--------------------------------+----------+----------+------------+

最佳答案

您没有显示 key 结构，尽管它确实显示 site_id 是多部分 key (MUL) 的一部分。请注意，如果它不是该多部分键中的第一个字段，则该键不能用于该 where 子句。例如，如果你有

KEY somekey (field1, site_id, field3, ...)

那么您的 where 子句必须同时包含 field 和 site_id 才能使该键在查询中可用。您不必按照它们在键中列出的相同顺序使用字段(where site_id=.. and field1=... 将与 where field1= ... 和 site_id=...)，但由于 field1 在键的定义中出现在 site_id 之前，因此您也必须使用它才能使整个键可用。

您的 q 字段也是如此。它也必须在被覆盖的键中排在第一位，否则这些键将无法使用。

关于php - 如何提高此数据分析的速度？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8495258/

文章推荐： mysql - 使用Mysql事务的优势

文章推荐： C# 如何在 winforms 应用程序中隐藏光标？

文章推荐： android - 在 Android 的 ListView 中动画显示项目

数据分析---matplotlib模块的使用
1.摘要在数据可视化、统计绘图和图表生成领域，Python 被广泛使用，其中 Matplotlib 是一个极其重要的基础三方库。本博客旨在介绍 Python 及其三方库 Matplotlib
数据分析---pandas模块
为什么要学习pandas？ numpy已经可以帮助我们进行数据的处理了，那么学习pandas的目的是什么呢？ numpy能够帮助我们处理的是数值型的数据，当然在数据分析中除了数
【数据分析】针对家庭用电数据进行时序分析（1）
0. 数据说明本项目所用数据集包含了一个家庭6个月的用电数据，收集于2007年1月至2007年6月。这些数据包括有功功率、无功功率、电压、电流强度、分项计量1（厨房）、分项计量2（洗衣房
statistics - 寻找估计方法(数据分析)
由于我现在不知道自己在做什么，所以我的措辞听起来很有趣。但是说真的，我需要学习。我面临的问题是提出一种方法（模型）来估计软件程序的工作方式：即运行时间和最大内存使用量。我已经拥有了大量数据。此数据集
PostgreSQL 数据分析/聚合
我在 PostgreSQL 中有一个表，其结构和数据如下: Question | Answer | Responses ------------------------------
python - 数据分析 Pandas SettingWithCopyWarning
numbers = LabelEncoder() State_Data['Quality'] = numbers.fit_transform(State_Data['Quality Paramet
python - 计算限制内的数据点，并对孤立点应用缓冲区[数据分析]
我一直在尝试解决这个问题: 我有一组数据点，对应于一组时间值。即 values =[1,2,3,4,5,6,7,8,4] times = [0.1,0.2,0.3,0.4]... 等等，这是一个示例速
Python爬虫+数据分析+数据可视化（分析《雪中悍刀行》弹幕）
哔哔一下雪中悍刀行兄弟们都看过了吗？感觉看了个寂寞，但又感觉还行，原谅我没看过原著小说~ 豆瓣评分5.8，说明我还是没说错它的。当然，这并不妨碍它波播放量嘎嘎上涨，半个月25亿播放，平均一集一个亿
python - html 中的 Pandas 数据分析
在 Pandas 中是否有任何可重用的数据分析代码，可以在 html 输出中给出结果。我已经尝试过来自以下链接的命令，但没有一个输出是 html 格式。 https://kite.com/blog/
Python爬虫+数据分析+可视化展示，分析《长津湖之水门桥》弹幕评论
吴京近年拍的影视都是非常富有国家情怀的，大人小孩都爱看，每次都是票房新高，最新的长津湖两部曲大家都有看吗，第一步还可以，第二部水门桥也不差，截止目前已经36.72亿票房。某眼评分9.6，某瓣评分7.
vba - 数据分析 - 在 Excel 中处理拍卖数据 - VBA
我有一个 .csv 文件，其中包含来自 eBay 拍卖的以下数据: auctionid - 拍卖的唯一标识符 bidtime - 出价的时间(以天为单位)，从拍卖开始投标人 - 投标人的 eBay
【爬虫+数据分析+数据可视化】python数据分析全流程《2021胡润百富榜》榜单数据！
目录 1、爬虫 1.1 爬取目标 1.2 分析页面 1.3 爬虫代码 1.4 结果数据
python-3.x - 数据分析 - 如何计算空值、NaN 和空字符串值？
我是 pyspark 的新手，我有这个示例数据集: Ticker_Modelo Ticker Type Period Product Geography Source Unit

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

php - 如何提高此数据分析的速度？