本文最后更新于 2024-08-27,文章内容可能已经过时。

题目

表: Activity

+----------------+---------+
| Column Name    | Type    |
+----------------+---------+
| machine_id     | int     |
| process_id     | int     |
| activity_type  | enum    |
| timestamp      | float   |
+----------------+---------+
该表展示了一家工厂网站的用户活动。
(machine_id, process_id, activity_type) 是当前表的主键(具有唯一值的列的组合)。
machine_id 是一台机器的ID号。
process_id 是运行在各机器上的进程ID号。
activity_type 是枚举类型 ('start', 'end')。
timestamp 是浮点类型,代表当前时间(以秒为单位)。
'start' 代表该进程在这台机器上的开始运行时间戳 , 'end' 代表该进程在这台机器上的终止运行时间戳。
同一台机器,同一个进程都有一对开始时间戳和结束时间戳,而且开始时间戳永远在结束时间戳前面。

现在有一个工厂网站由几台机器运行,每台机器上运行着 相同数量的进程 。编写解决方案,计算每台机器各自完成一个进程任务的平均耗时。

完成一个进程任务的时间指进程的'end' 时间戳 减去 'start' 时间戳。平均耗时通过计算每台机器上所有进程任务的总耗费时间除以机器上的总进程数量获得。

结果表必须包含machine_id(机器ID) 和对应的 average time(平均耗时) 别名 processing_time,且四舍五入保留3位小数。

任意顺序 返回表。

具体参考例子如下。

示例 1:

输入:
Activity table:
+------------+------------+---------------+-----------+
| machine_id | process_id | activity_type | timestamp |
+------------+------------+---------------+-----------+
| 0          | 0          | start         | 0.712     |
| 0          | 0          | end           | 1.520     |
| 0          | 1          | start         | 3.140     |
| 0          | 1          | end           | 4.120     |
| 1          | 0          | start         | 0.550     |
| 1          | 0          | end           | 1.550     |
| 1          | 1          | start         | 0.430     |
| 1          | 1          | end           | 1.420     |
| 2          | 0          | start         | 4.100     |
| 2          | 0          | end           | 4.512     |
| 2          | 1          | start         | 2.500     |
| 2          | 1          | end           | 5.000     |
+------------+------------+---------------+-----------+
输出:
+------------+-----------------+
| machine_id | processing_time |
+------------+-----------------+
| 0          | 0.894           |
| 1          | 0.995           |
| 2          | 1.456           |
+------------+-----------------+
解释:
一共有3台机器,每台机器运行着两个进程.
机器 0 的平均耗时: ((1.520 - 0.712) + (4.120 - 3.140)) / 2 = 0.894
机器 1 的平均耗时: ((1.550 - 0.550) + (1.420 - 0.430)) / 2 = 0.995
机器 2 的平均耗时: ((4.512 - 4.100) + (5.000 - 2.500)) / 2 = 1.456

题解

select machine_id, 
round(sum(if(activity_type='end', timestamp, -timestamp)) / count(distinct process_id), 3) as processing_time
from Activity
group by machine_id

这行SQL代码的目的是从名为Activity的表中计算每个机器(由machine_id标识)的平均处理时间。这里的处理时间是通过计算每个过程(由process_id标识)的开始(start)和结束(end)活动的时间戳差来得到的。

让我们逐步解释这个SQL查询:

1. 选择列

  • select machine_id,:选择machine_id列,这是我们要分组的列,即我们要为每个机器计算平均处理时间。

2. 计算处理时间

  • round(sum(if(activity_type='end', timestamp, -timestamp)) / count(distinct process_id), 3):这部分是比较复杂的,它首先计算每个过程的总处理时间,然后除以不同过程的总数来得到平均值。

  • if(activity_type='end', timestamp, -timestamp):这是一个条件表达式,用于检查`activity_type`列的值。如果活动类型是`end`,则使用时间戳的正值;如果是`start`,则使用时间戳的负值。这样做的目的是在计算过程中,结束时间会增加总时间,而开始时间会减少总时间。

  • sum():计算所有过程的处理时间总和。

  • count(distinct process_id):计算不同过程的总数。

  • /:将总处理时间除以不同过程的总数,得到每个过程的平均处理时间。

  • round(, 3):将计算出的平均处理时间四舍五入到小数点后三位。

3. 分组

  • from Activity:指定查询的表名为Activity

  • group by machine_id:按照machine_id列对结果进行分组,以便为每个机器计算独立的平均处理时间。

最终,这个查询会为Activity表中的每个不同的machine_id返回一个结果行,其中包含该机器的平均处理时间,计算方式是将所有过程的总处理时间除以不同过程的总数,并对结果进行四舍五入。

以上题解来源于力扣题解中本人觉得很巧妙的题解之一,不一定是最优解。

题目来源:https://leetcode.cn/problems/average-time-of-process-per-machine/description/?envType=study-plan-v2&envId=sql-free-50