Mysql 8 新特性 window functions 有什么用?

2017 年 11 月 28 日 性能与架构 杜亦舒

1. 问题

Mysql 8.0.2 中新增加了一个主要功能 - 窗口函数 window function

这个功能具体是解决什么问题?下面先看一个SQL查询的场景,看一下平时我们是怎么做的,然后再看一下如何使用窗口函数来更方便的解决

(1)准备测试表和数据

建一个简单的电影信息表,字段有:

  • ID

  • release_year(发行年份)

  • category_id(所属分类ID)

  • rating(评分)

CREATE TABLE films (
  id int(11),
  release_year int(11),
  category_id int(11),
  rating decimal(3,2)
)

插入测试数据

insert into films2 values
(1,2015,1,8.00),
(2,2015,2,8.50),
(3,2015,3,9.00),
(4,2016,2,8.20),
(5,2016,1,8.40),
(6,2017,2,7.00);

整体形式如下

(2)查询需求

查询每一年中的平均评分,要求每条记录后面都显示当年的平均评分

例如 2015 年,有3条记录,8.00, 8.50, 9.00 的平均分是 8.5,2016年有2条记录,平均分是 8.3,2017年有1条记录,平均分为 7.00

最终结果的形式如下:

我们可以使用子查询来计算各年的平均分,然后使用 join 把结果连接回去

SELECT
  f.id, f.release_year, 
  f.rating, years.year_avg
FROM films f
LEFT JOIN (
  SELECT f.release_year, 
        AVG(rating) AS year_avg
  FROM films f
  GROUP BY f.release_year
) years 
ON f.release_year = years.release_year

是不是有点复杂,下面看下窗口函数的处理方式

2. window functions 的解决方案

什么是 window functions

window functions 是对一组数据进行计算,与使用 group by 时不同,不会进行单行的结果输出,而是与每条记录相关联

语法示例:

SELECT
function_name OVER ( window_definition )
FROM (...)

window_definition 是定义要计算的记录集合,就像是一个小窗口,在整体数据集合上显示出一部分

function_name 指定了对于窗口中的数据集合执行什么计算

回头看下上面的那个查询,需要计算每部电影所在年份的所有电影平均评分,下面使用窗口函数来处理

SELECT
  f.id, f.release_year, 
  f.category_id, f.rating,
  AVG(rating) OVER 
  (PARTITION BY release_year) AS year_avg
FROM films f

window_definition 部分使用了 PARTITION BY 从句,它告诉数据库把结果数据集合分割成更小的部分,把 release_year 相同的放在一起,函数 AVG(rating) 会对每个窗口数据进行计算,然后把结果放到每一行中

查询示例1

计算每部电影在所属年份中的评分排行位置

查询语句

SELECT
 f.id, f.release_year, 
 f.category_id, f.rating,
 RANK() OVER (PARTITION BY release_year 
        ORDER BY rating DESC) AS year_rank
FROM films f

window_definition 部分使用 PARTITION BY 来根据 release_year 划分窗口,使用 ORDER BY 在窗口内排序

RANK() 函数可以返回一行数据在本窗口中的位置

查询结果

查询示例2

查看每部电影在总排行榜中的位置

查询语句

SELECT
 f.id, f.release_year, 
 f.category_id, f.rating,
 RANK() OVER (ORDER BY rating DESC) 
        AS general_rank
FROM films f order by id

主语句中的 order by 保证了整个数据集的排序

window_definition 中没有使用 PARTITION BY,那么就是把整个结果集合当做一个窗口,ORDER BY 对窗口中的数据根据 rating 做降序排序,把得分最高的放前面

RANK() 函数取得每条记录在窗口中的位置

查询结果

3. 小结

窗口函数是 Mysql 8.0.2 中的高级特性,可以方便的执行聚合计算,而不用对结果集进行实际的聚合,大大增加了灵活性、可读性,更便于维护

有兴趣的同学可以提前学习下,可以使用 Mysql 8.0.2 的 Docker 镜像,很方便

参考资料:

http://mysqlserverteam.com/mysql-8-0-2-introducing-window-functions/

https://dev.mysql.com/doc/refman/8.0/en/window-functions-usage.html


点击 “阅读原文” 查看 文章列表

登录查看更多
0

相关内容

Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
73+阅读 · 2020年5月5日
【2020新书】C++20 特性 第二版,A Problem-Solution Approach
专知会员服务
58+阅读 · 2020年4月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
32+阅读 · 2020年4月15日
算法与数据结构Python,369页pdf
专知会员服务
162+阅读 · 2020年3月4日
TensorFlow Lite指南实战《TensorFlow Lite A primer》,附48页PPT
专知会员服务
69+阅读 · 2020年1月17日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
[DLdigest-8] 每日一道算法
深度学习每日摘要
4+阅读 · 2017年11月2日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
漫画:什么是Bitmap算法?
程序猿
3+阅读 · 2017年8月19日
基于LDA的主题模型实践(三)
机器学习深度学习实战原创交流
23+阅读 · 2015年10月12日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
一文看懂怎么用 Python 做数据分析
大数据技术
24+阅读 · 2019年5月5日
从最优化的角度看待 Softmax 损失函数
极市平台
31+阅读 · 2019年2月21日
机器学习线性代数速查
机器学习研究会
19+阅读 · 2018年2月25日
[DLdigest-8] 每日一道算法
深度学习每日摘要
4+阅读 · 2017年11月2日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
漫画:什么是Bitmap算法?
程序猿
3+阅读 · 2017年8月19日
基于LDA的主题模型实践(三)
机器学习深度学习实战原创交流
23+阅读 · 2015年10月12日
Top
微信扫码咨询专知VIP会员