SQL作为针对关系型数据库特殊标准化的编程语言,能够实现用户数据库查询和程序设计,因此也备受数据分析师的喜爱。那么,每个数据分析师都必须知道的SQL查询语法有哪些呢?
原文链接:https://towardsdatascience.com/10-most-important-sql-commands-every-data-analyst-needs-to-know-f0f568914b98
声明:本文为CSDN翻译,转载请注明来源。
译者 | 朱珂欣 责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
作为一名数据分析师或数据科学家,无论你在创建花哨的可视化方面有多好,或者你在构建复杂模型方面有多熟练,从本质上来看,如何使用数据来完成事情才是最重要的。
SQL作为一种表达力非常强的数据分析语言,可以完成数据查询,数据更新,写入数据等。此外,它还可用于对数据执行各种操作,例如过滤行和列以及简单的数据操作。鉴于SQL在数据分析领域的重要性,先来了解10个重要的SQL查询语法。
1.SELECT和FROM
首先需要认识select和from,最基本的SQL查询将涉及这两个命令。
select代表字段,表明从哪个表中查询数据。
from代表表格,表明查询的数据来自哪一个数据库表。
并且,随着查询变得越来越复杂,将在它们之上添加更多命令。
2.DISTINCT
DISTINCT用于查看列中的唯一值。因此,如果查询到的数据带有重复值,可以用DISTINCT来进行去重。
作为一种数据去重的手段,DISTINCT可以对单个数据进行去重,对多个字段进行去重。
3.WHERE
WHERE用于筛选与特定条件匹配的行。此外,它也经常与其他运算符一起使用,并将多个条件组合在一起。
4.Wildcard
Wildcard代表通配符,在运算符中用于匹配字符串模式。通配符也使数据的匹配更方便。
在查看此通配符的工作原理之前,让我们先检查一下客户配置文件表。此表告诉我们特定客户的生命周期阶段和保费状态。
SQL可以提供一种快速而直接的方法来匹配字符串模式,这在很多情况下筛选出行时都很方便。
5.ORDER BY
排序通常可以使用ORDER BY的方法。ORDER BY可以按特定列按字母顺序或数字对查询结果进行排序。如果存在 where 子句,那么 order by 必须放到 where 询句后面。
它可以通过两种方式进行排序:按降序排序,或按升序排序。虽然您会注意到大多数人不会在他们的查询中编写,因为SQL默认情况下会设置此内容。
6.AS
AS能够重命名列或表。在查询涉及多个表、查询函数、需要把两个或更多的列放在一起、列名长或可读性差等情况下可以使用AS。但是,这不会直接更改其原始列或表中的名称。
7.CASE WHEN、ELSE 和 THEN
CASE WHEN、ELSE 和 THEN 与 if-else 语句非常相似。该命令可以理解为:如果满足条件,请执行此操作,否则执行该操作。
在使用 CASE WHEN时,可以把它当作一个没有字段名的字段,字段值根据条件确认,在需要使用字段名时可以用AS来定义别名。
8.GROUP BY 和 aggregate functions
GROUP BY将按相同的值对数据进行分组。
一方面,GROUP BY经常与聚合函数一起使用,以汇总特定数据组的属性。另一方面,聚合函数对一系列值执行计算并返回单个值。
聚合函数的一些示例包括:
COUNT:返回总行数;
SUM:返回所有值的总和;
MAX:返回最大值;
MIN:返回最小值;
AVG:返回平均值。
9. JOIN
JOIN用于把两个或多个表的行结合起来。常见的连接类型有:INNER JOIN (内连接)、LEFT JOIN(左连接)、RIGHT JOIN(右连接) 、FULL JOIN(全连接)。
在关系数据库中,主键是一列或多列的组合,用于标识表中唯一的一条记录。例如,事务表的主键是transaction_id列,而客户配置文件表的主键是customer_id列。外键在两个表中的数据之间建立联系。具体而言,一个表中的外键将链接到另一个表中的主键。例如,customer_id列是事务表中的外键,但它是客户配置文件表中的主键。
鉴于主键和外键之间的关系,我们可以在这个特定场景中执行 a。
10.UNION
UNION用于合并来自多个语句的查询结果。请注意,要合并的表必须具有相同数量的列,同样重要的是,列必须具有相同的数据类型。
我不得不承认,我为这个练习整理的两个表格可能不是说明力量的最佳方法,但是,为了完整性的目的,我将在这里演示它。