logo资料库

oracle分析函数全面解析.doc

第1页 / 共69页
第2页 / 共69页
第3页 / 共69页
第4页 / 共69页
第5页 / 共69页
第6页 / 共69页
第7页 / 共69页
第8页 / 共69页
资料共69页,剩余部分请下载后查看
分析函数(OVER)
分析函数2(Rank, Dense_rank, row_number)
分析函数3(Top/Bottom N、First/Last、NTile)
窗口函数
报表函数
分析函数总结
26个分析函数
PLSQL开发笔记和小结
分析函数简述
分析函数(OVER).....................................................................................................................................1 分析函数 2(Rank, Dense_rank, row_number) .........................................................................................6 分析函数 3(Top/Bottom N、First/Last、NTile)...................................................................................10 窗口函数................................................................................................................................................ 14 报表函数................................................................................................................................................ 20 分析函数总结........................................................................................................................................ 22 26 个分析函数....................................................................................................................................... 25 PLSQL 开发笔记和小结....................................................................................................................... 29 分析函数简述........................................................................................................................................ 62 分析函数(OVER) 目录: =============================================== 1.Oracle 分析函数简介 2. Oracle 分析函数简单实例 3.分析函数 OVER 解析 一、Oracle 分析函数简介: 在日常的生产环境中,我们接触得比较多的是 OLTP 系统(即 Online Transaction Process),这些系 统的特点是具备实时要求,或者至少说对响应的时间多长有一定的要求;其次这些系统的业务逻辑一般 比较复杂,可能需要经过多次的运算。比如我们经常接触到的电子商城。 在这些系统之外,还有一种称之为 OLAP 的系统(即 Online Aanalyse Process),这些系统一般用于 系统决策使用。通常和数据仓库、数据分析、数据挖掘等概念联系在一起。这些系统的特点是数据量大, 对实时响应的要求不高或者根本不关注这方面的要求,以查询、统计操作为主。 我们来看看下面的几个典型例子: ①查找上一年度各个销售区域排名前 10 的员工 ②按区域查找上一年度订单总额占区域订单总额 20%以上的客户 ③查找上一年度销售最差的部门所在的区域 ④查找上一年度销售最好和最差的产品 我们看看上面的几个例子就可以感觉到这几个查询和我们日常遇到的查询有些不同,具体有: ①需要对同样的数据进行不同级别的聚合操作 ②需要在表内将多条数据和同一条数据进行多次的比较 ③需要在排序完的结果集上进行额外的过滤操作 分析函数语法: FUNCTION_NAME(,...) OVER ()
例: sum(sal) over (partition by deptno order by ename) new_alias sum 就是函数名 (sal)是分析函数的参数,每个函数有 0~3 个参数,参数可以是表达式,例如:sum(sal+comm) over 是一个关键字,用于标识分析函数,否则查询分析器不能区别 sum()聚集函数和 sum()分析函数 partition by deptno 是可选的分区子句,如果不存在任何分区子句,则全部的结果集可看作一个单一的 大区 order by ename 是可选的 order by 子句,有些函数需要它,有些则不需要.依靠已排序数据的那些函 数,如:用于访问结果集中前一行和后一行的 LAG 和 LEAD,必须使用,其它函数,如 AVG,则不需要.在使 用了任何排序的开窗函数时,该子句是强制性的,它指定了在计算分析函数时一组内的数据是如何排序 的. 1)FUNCTION 子句 ORACLE 提供了 26 个分析函数,按功能分 5 类 分析函数分类 等级(ranking)函数:用于寻找前 N 种查询 开窗(windowing)函数:用于计算不同的累计,如 SUM,COUNT,AVG,MIN,MAX 等,作用于数据的一个 窗口上 例: sum(t.sal) over (order by t.deptno,t.ename) running_total, sum(t.sal) over (partition by t.deptno order by t.ename) department_total 制表(reporting)函数:与开窗函数同名,作用于一个分区或一组上的所有列 例: sum(t.sal) over () running_total2, sum(t.sal) over (partition by t.deptno ) department_total2 制表函数与开窗函数的关键不同之处在于 OVER 语句上缺少一个 ORDER BY 子句! LAG,LEAD 函数:这类函数允许在结果集中向前或向后检索值,为了避免数据的自连接,它们是非常用用 的. VAR_POP,VAR_SAMP,STDEV_POPE 及线性的衰减函数:计算任何未排序分区的统计值 2)PARTITION 子句 按照表达式分区(就是分组),如果省略了分区子句,则全部的结果集被看作是一个单一的组 3)ORDER BY 子句 分析函数中 ORDER BY 的存在将添加一个默认的开窗子句,这意味着计算中所使用的行的集合是当前分 区中当前行和前面所有行,没有 ORDER BY 时,默认的窗口是全部的分区 在 Order by 子句后可以添加 nulls last,如:order by comm desc nulls last 表示排序时忽略 comm 列为空的行. 4)WINDOWING 子句 用于定义分析函数将在其上操作的行的集合 Windowing 子句给出了一个定义变化或固定的数据窗口的方法,分析函数将对这些数据进行操作 默认的窗口是一个固定的窗口,仅仅在一组的第一行开始,一直继续到当前行,要使用窗口,必须使用 ORDER BY 子句 根据 2 个标准可以建立窗口:数据值的范围(RANGES)或与当前行的行偏移量. 5)Rang 窗口 Range 5 preceding:将产生一个滑动窗口,他在组中拥有当前行以前 5 行的集合
ANGE 窗口仅对 NUMBERS 和 DATES 起作用,因为不可能从 VARCHAR2 中增加或减去 N 个单元 另外的限制是 ORDER BY 中只能有一列,因而范围实际上是一维的,不能在 N 维空间中 例: avg(t.sal) over(order by t.hiredate asc range 100 preceding) 统计前 100 天平均工资 6)Row 窗口 利用 ROW 分区,就没有 RANGE 分区那样的限制了,数据可以是任何类型,且 ORDER BY 可以包括很多 列 7)Specifying 窗口 UNBOUNDED PRECEDING:这个窗口从当前分区的每一行开始,并结束于正在处理的当前行 CURRENT ROW:该窗口从当前行开始(并结束) Numeric Expression PRECEDING:对该窗口从当前行之前的数字表达式(Numeric Expression)的 行开始,对 RANGE 来说,从从行序值小于数字表达式的当前行的值开始. Numeric Expression FOLLOWING:该窗口在当前行 Numeric Expression 行之后的行终止(或开始), 且从行序值大于当前行 Numeric Expression 行的范围开始(或终止) range between 100 preceding and 100 following:当前行 100 前,当前后 100 后 注意:分析函数允许你对一个数据集进排序和筛选,这是 SQL 从来不能实现的.除了最后的 Order by 子句之外,分析函数是在查询中执行的最后的操作集,这样的话,就不能直接在谓词中使用分析函数,即不 能在上面使用 where 或 having 子句!!! 二、Oracle 分析函数简单实例: 下面我们通过一个实际的例子:按区域查找上一年度订单总额占区域订单总额 20%以上的客户,来看 看分析函数的应用。 【1】测试环境: SQL> desc orders_tmp; Name ----------------------- CUST_NBR REGION_ID SALESPERSON_ID YEAR MONTH TOT_ORDERS TOT_SALES -------- ---------------- Null? Type NOT NULL NUMBER(5) NOT NULL NUMBER(5) NOT NULL NUMBER(5) NOT NULL NUMBER(4) NOT NULL NUMBER(2) NOT NULL NUMBER(7) NOT NULL NUMBER(11,2) 【2】测试数据: SQL> select * from orders_tmp; CUST_NBR REGION_ID SALESPERSON_ID YEAR MONTH TOT_ORDERS TOT_ SALES ---------- ---------- -------------- ---------- ---------- ---------- ---------- 11 4 7 7 5 6 11 4 7 2001 2001 2001 7 10 2 2 2 3 12204 37802 3750
10 10 15 12 1 1 2 2 2 4 6 6 7 7 5 5 5 5 5 5 13 rows selected. 8 7 12 9 2 1 4 4 1 4 2001 2001 2000 2000 2000 2000 2000 2000 2000 2000 1 2 5 6 3 9 3 4 10 12 2 3 6 2 2 2 2 4 4 2 21691 42624 24 50658 44494 74864 35060 6454 35580 39190 【3】测试语句: SQL> select o.cust_nbr customer, 2 3 4 5 from orders_tmp o 6 where o.year = 2001 7 group by o.region_id, o.cust_nbr; o.region_id region, sum(o.tot_sales) cust_sales, sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales CUSTOMER REGION CUST_SALES REGION_SALES ---------- ---------- ---------- ------------ 4 7 10 11 5 6 6 7 37802 3750 64315 12204 37802 68065 68065 12204 三、分析函数 OVER 解析: 请注意上面的绿色高亮部分,group by 的意图很明显:将数据按区域 ID,客户进行分组,那么 Over 这一部分有什么用呢?假如我们只需要统计每个区域每个客户的订单总额,那么我们只需要 group by o.region_id,o.cust_nbr 就够了。但我们还想在每一行显示该客户所在区域的订单总额,这一点和前 面的不同:需要在前面分组的基础上按区域累加。很显然 group by 和 sum 是无法做到这一点的(因为 聚集操作的级别不一样,前者是对一个客户,后者是对一批客户)。 这就是 over 函数的作用了!它的作用是告诉 SQL 引擎:按区域对数据进行分区,然后累积每个区域 每个客户的订单总额(sum(sum(o.tot_sales)))。 现在我们已经知道 2001 年度每个客户及其对应区域的订单总额,那么下面就是筛选那些个人订单总额 占到区域订单总额 20%以上的大客户了 SQL> select * 2 from (select o.cust_nbr customer, 3 o.region_id region,
sum(o.tot_sales) cust_sales, sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales 4 5 6 7 8 9 where all_sales.cust_sales > all_sales.region_sales * 0.2; from orders_tmp o where o.year = 2001 group by o.region_id, o.cust_nbr) all_sales CUSTOMER REGION CUST_SALES REGION_SALES ---------- ---------- ---------- ------------ 37802 68065 12204 37802 64315 12204 4 10 11 5 6 7 SQL> 现在我们已经知道这些大客户是谁了!哦,不过这还不够,如果我们想要知道每个大客户所占的订单比 例呢?看看下面的 SQL 语句,只需要一个简单的 Round 函数就搞定了。 SQL> select all_sales.*, 100 * round(cust_sales / region_sales, 2) || '%' Percent o.region_id region, sum(o.tot_sales) cust_sales, sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales 2 3 from (select o.cust_nbr customer, 4 5 6 7 8 9 10 where all_sales.cust_sales > all_sales.region_sales * 0.2; from orders_tmp o where o.year = 2001 group by o.region_id, o.cust_nbr) all_sales CUSTOMER REGION CUST_SALES REGION_SALES PERCENT ---------- ---------- ---------- ------------ ---------------------------------------- 4 10 11 5 6 7 37802 64315 12204 37802 68065 12204 100% 94% 100% SQL> 总结: ①Over 函数指明在那些字段上做分析,其内跟 Partition by 表示对数据进行分组。注意 Partition by 可以有多个字段。 ②Over 函数可以和其它聚集函数、分析函数搭配,起到不同的作用。例如这里的 SUM,还有诸如 Rank,Dense_rank 等。
分析函数 2(Rank, Dense_rank, row_number) 目录 =============================================== 1.使用 rownum 为记录排名 2.使用分析函数来为记录排名 3.使用分析函数为记录进行分组排名 一、使用 rownum 为记录排名: 在前面一篇《Oracle 开发专题之:分析函数》,我们认识了分析函数的基本应用,现在我们再来考虑 下面几个问题: ①对所有客户按订单总额进行排名 ②按区域和客户订单总额进行排名 ③找出订单总额排名前 13 位的客户 ④找出订单总额最高、最低的客户 ⑤找出订单总额排名前 25%的客户 按照前面第一篇文章的思路,我们只能做到对各个分组的数据进行统计,如果需要排名的话那么只需要 简单地加上 rownum 不就行了吗?事实情况是否如此想象般简单,我们来实践一下。 【1】测试环境: SQL> desc user_order; Name l? Type Nul ----------------------------------------- REGION_I -------- ---------------------------- D ER(2) CUSTOMER_ID (2) CUSTOMER_SALES NUMB NUMBER NUMBER 【2】测试数据: SQL> select * from user_order order by customer_sales; REGION_ID CUSTOMER_ID CUSTOMER_SALES ---------- ----------- -------------- 151162 903383 971585 986964 5 10 6 10 1 29 7 28
9 9 8 6 5 5 8 7 7 6 6 10 5 9 9 8 7 7 10 8 6 10 5 7 8 9 21 22 16 8 3 5 19 12 11 10 9 30 2 24 23 18 15 13 27 20 6 26 4 14 17 25 30 rows selected. 1020541 1036146 1068467 1141638 1161286 1169926 1174421 1182275 1190421 1196748 1208959 1216858 1255591 1310434 1322747 1413722 1788836 1808949 1878275 1929774 1944281 2232703 1224992 1224992 1224992 1253840 注意这里有 3 条记录的订单总额是一样的。假如我们现在需要筛选排名前 12 位的客户,如果使用 rownum 会有什么样的后果呢? SQL> select rownum, t.* 2 from (select * 3 4 5 where rownum <= 12 6 order by customer_sales desc; from user_order order by customer_sales desc) t ROWNUM REGION_ID CUSTOMER_ID CUSTOMER_SALES ---------- ---------- ----------- -------------- 1 2 3 4 5 6 9 8 7 5 10 6 25 17 14 4 26 6 2232703 1944281 1929774 1878275 1808949 1788836
7 8 9 10 11 12 8 10 7 7 8 5 20 27 13 15 18 2 1413722 1322747 1310434 1255591 1253840 1224992 12 rows selected. 很明显假如只是简单地按 rownum 进行排序的话,我们漏掉了另外两条记录(参考上面的结果)。 二、使用分析函数来为记录排名: 针对上面的情况,Oracle 从 8i 开始就提供了 3 个分析函数:rand,dense_rank,row_number 来 解决诸如此类的问题,下面我们来看看这 3 个分析函数的作用以及彼此之间的区别: Rank,Dense_rank,Row_number 函数为每条记录产生一个从 1 开始至 N 的自然数,N 的值可能 小于等于记录的总数。这 3 个函数的唯一区别在于当碰到相同数据时的排名策略。 ①ROW_NUMBER: Row_number 函数返回一个唯一的值,当碰到相同数据时,排名按照记录集中记录的顺序依次递增。 ②DENSE_RANK: Dense_rank 函数返回一个唯一的值,除非当碰到相同数据时,此时所有相同数据的排名都是一样的。 ③RANK: Rank 函数返回一个唯一的值,除非遇到相同的数据时,此时所有相同数据的排名是一样的,同时会在 最后一条相同记录和下一条不同记录的排名之间空出排名。 这样的介绍有点难懂,我们还是通过实例来说明吧,下面的例子演示了 3 个不同函数在遇到相同数据时 不同排名策略: SQL> select region_id, customer_id, sum(customer_sales) total, rank() over(order by sum(customer_sales) desc) rank, dense_rank() over(order by sum(customer_sales) desc) dense_rank, row_number() over(order by sum(customer_sales) desc) row_number 2 3 4 5 from user_order 6 group by region_id, customer_id; REGION_ID CUSTOMER_ID ---------- ----------- ---------- ---------- ---------- ---------- TOTAL RANK DENSE_RANK ROW_NUMBER 8 5 9 18 2 23 1253840 1224992 1224992 11 12 12 11 12 12 11 12 13
分享到:
收藏