面板数据的聚类分析及其应用_朱建平.pdf

发布时间：2022-06-01 发布人：admin 分类：说明书资料大小：0.12M 资料格式：pdf 举报版权申诉

lemonwp-7738005-4744302543391134144.pdf-第1页.png

第1页 / 共4页

lemonwp-7738005-4744302543391134144.pdf-第2页.png

第2页 / 共4页

lemonwp-7738005-4744302543391134144.pdf-第3页.png

第3页 / 共4页

lemonwp-7738005-4744302543391134144.pdf-第4页.png

第4页 / 共4页

文本预览

3 统计研究 Statistical Research 2 4 2 　 Vol. 24 , No Apr. 2007 　第 24 卷第 4 期 2007 年 4 月面板数据的聚类分析及其应用朱建平　陈民恳　　内容提要 :不同于传统的计量建模分析 ,本文探讨了多元统计方法在面板数据分析上的运用。文中介绍了面板数据的统计描述方法 ,构造了面板数据之间相似性的统计指标 ,并在此基础上提出了面板数据聚类分析的有效方法 ,通过实际应用取得了良好的效果。关键词 :面板数据 ;聚类分析 ;计量经济 ;多元统计中图分类号 :C812 　　　文献标识码 :A 　　　文章编号 :1002 - 4565 (2007) 04 - 0011 - 04 The Cluster Analysis of Panel Data and Its Application Zhu Jianping & Chen Minken Abstract :Unlike the traditional econometric modeling analysis , this paper discusses the application of multivariate statistical methods for panel data. It introduces the statistical description of panel data and constructs the statistical indicators for the similarity of the data , and thereby the method of clustering panel data is proposed. Finally , the method is proved to be effective through the practical application. Key words :Panel data ; cluster analysis ; econometrics ; multivariate statistics 　　一、引言面板数据 ( Panel Data) 是截面数据和时间序列数据的组合 ,是现实生活中很常见的数据形式 ,例如我国 31 个省级地区的 20 年的国内生产总值数据 , 就是一组“Panel Data”。从 1970 年代末以来 , Panel Data 模型的理论方法已日渐成熟 ,涌现了大量有关的理论和经验分析文章 ,形成了现代计量经济学的一个相对独立的分支[1 ] 。绝大多数有关 Panel Data 的理论[2 ] ,都是从计量建模的角度着手 ,从单方程模型到联立方程模型 ,从变截距模型到变系数模型 ,从线性模型到非线性模型等等 ,另一方面 ,都是着重于模型参数估计方法的研究。Bonzo D. C. 和　　参考文献 [ 1 ]Marc Boulle. Khiops : A Statistical Discretization Method of Continuous Attributes [J ] . Machine Learning ,2004 (55) :53 —69. [ 2 ]李刚 , 李霁伦 , 童　. WILD : 基于加权信息损耗的离散化算法 [J ] . 南京大学学报 (自然科学) ,2001 (3) :148 —152. [ 3 ]王国胤. Rough 集理论与知识获取[M] . 西安 :西安交通大学出版社 ,2003. 51. [ 4 ]李立萍 ,张明友. 信息论导引[ M] . 成都 :电子科技大学出版社 , 2005. 33. Hermosilla A. Y. 等统计学家则另辟蹊径 ,将多元统计方法引入到 Panel Data 的分析中来[3 ] 。Bonzo D. C. 运用概率连接函数 (probability link function) 改进聚类分析的算法 ,从而将聚类分析用于面板数据的分析。然而 ,对面板数据的统计描述 ,以及刻画面板数据之间的相似性研究的不多 ,本文将针对此问题进行讨论 ,构造面板数据的相似指标 ,并在此基础上提出面板数据聚类分析的有效方法。本文获国家教育部“新世纪优秀人才支持计划”(NCET 04 0608) 资助 ;国家教育部社科研究规划项目 (06JA910003) 资助。作者简介刘云霞 ,山西省 ,1978 年生 ,女 ,厦门大学计划统计系 04 级博士研究生 ,研究方向为数据分析 ,厦门大学经济学院计划统计系 04 级博士。曾五一 ,福建省 ,1953 年生 ,男 ,现为厦门大学计划统计系教授 ,博士生导师 ,中国统计学会副会长、教育部统计学教学指导分委员会副主任委员。 (责任编辑 :竹　影) © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

2 　·12　　　· 统计研究 2007 年 4 月　　　二、面板数据的统计描述对面板数据的研究已经形成了较为成熟的理论 ,但是对于面板数据的预处理往往被人们所忽视。一般人们根据实际情况 ,通常对面板数据就是通过计量经济模型进行分析 ,这样具有一定的盲目性 ,很难直接建立能反映实际问题的模型。面板数据实际上是一种复杂的数据结构形式 ,在对其进行深入的分析之前 ,特别是建立计量经济模型时 ,需要对面板数据有一个初步的了解 ,这样会从原始的面板数据中获得必要的信息。在此 ,引进面板数据的统计描述方法[4 ] ,不仅为面板数据的预处理提供了思路 ,而且为面板数据的深入分析奠定了理论基础。设单指标的面板数据为 xi ( t) , i = 1 ,2 , …, N , 0 ≤t ≤T ,那么称 x ( t) = N 1 N ∑ i = 1 xi ( t) ,0 ≤ t ≤ T 为 xi ( t) 的均值函数 (the mean function) , 种动态平均水平。称 1 N - 1 ∑ varx ( t) = [ xi ( t) - N i = 1 (1) x ( t) 表示一 x ( t) ]2 ,0 ≤t ≤ T (2) 为 xi ( t) 的方差函数 (the variance function) ,其平方根为 xi ( t) 的标准差函数。对于不同的时点 0 ≤t1 < t2 ≤T ,称 covx ( t1 , t2) = N 1 N - 1 ∑ i = 1 [ xi ( t1) - x ( t1) ][ xi ( t2) - x ( t2) ] (3) 为 xi ( t) 的协方差函数 (the covariance function) 。称 corrx ( t1 , t2 ) = covx ( t1 , t2 ) varx ( t1 ) varx ( t2 ) ,0 ≤ t1 < t2 ≤ T (4) 为 xi ( t ) 的联合相关函数 (the associated correlation function) 。设有一对面板数据 ( xi ( t) , yi ( t) ) , i = 1 ,2 , …, N ,0 ≤t ≤T ,称 [ xi ( t1 ) - x ( t1 ) ] [ yi ( t2 ) N covx , y ( t1 , t2 ) = 1 N - 1 ∑ y ( t2 ) ] ,0 ≤ t1 < t2 ≤ T i = 1 (5) - 为 ( xi ( t ) , yi ( t ) ) 的交叉协方差函数 ( the cross covariance function) 。称 corrx , y ( t1 , t2) = covx , y ( t1 , t2) varx ( t1) vary ( t2) ,0 ≤ t1 < t2 ≤ T (6) 为 ( xi ( t) , yi ( t) ) 的交叉相关函数 (cross function) 。 correlation 有了对面板数据的统计描述后 ,可以利用所获得的信息 ,根据要解决的实际问题构建面板数据的计量经济模型、面板数据主成分分析、时间函数的光顺性分析、面板数据的聚类分析等等。　　三、面板数据的聚类分析 1. 面板数据的相似指标由于大型数据库中面板数据的出现 ,聚类分析的研究工作自然涉及到面板数据的有效聚类分析上。那么 ,面板数据的聚类分析所针对的数据类型如何呢 ? 这一问题的明确 ,将会为面板数据的聚类分析方法的研究澄清思路。对于面板数据 xi ( t) , i = 1 ,2 , …, N ,0 ≤t ≤T , 考虑 N 个面板数据之间的近似性用面板之间的距离表示 ,其表现形式是一个 N ×N 的对称阵 ,即 0 δ1 ,2 δ1 ,3 … δ1 , N 0 δ12 … δ2 , N … δN - 1 , N 0 (7) 其中δi , j 是第 i 个面板数据与第 j 个面板数据之间的相异程度的量化表示 ,当第 i 个与第 j 个面板数据相似或“接近”,其值越接近于 0 。对于设定的面板数据 xi ( t) , i = 1 ,2 , …, N ,0 ≤ t ≤T ,那么 ,面板数据之间的相似指标可用 : ,0 ≤ t ≤ T} (8) (1) 差异的上确界。 δ(1) ij = sup{| xi ( t) - xj ( t) | (2) 一致差异。 ij =∫T 如果针对间断型的面板数据 xi ( tk ) , i = 1 ,2 , …,N ,0 ≤t1 < t2 < …< tm ≤T ,面板数据之间的相似指标可用 : | xi ( t) - xj ( t) | dt δ(2) (9) 0 (3) 差异的最大值 : δ(3) ij = max 1 ≤k ≤m (4) 差异的绝对和 : | xi ( tk ) - xj ( tk ) | m | xi ( tk ) - xj ( tk ) | ij = ∑ δ(4) (5) 差异的欧氏距离 : k = 1 (10) (11) m k = 1 [ xi ( tk ) - xj ( tk ) ]2 ij = ∑ δ(5) 2. 面板数据的聚类分析聚类分析的关键是 ,对所研究的问题构造数据 (12) © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

第 24 卷第 4 期朱建平　陈民恳 :面板数据的聚类分析及其应用 ·13　　　·　之间的相似指标。针对复杂的面板数据 ,根据连续和间断的情形 ,从不同的角度 ,提出了描述面板数据之间相似程度的指标 ,由此生成了相应的相似矩阵式 (7) 。在此基础上 ,利用系统聚类分析就可以得到分析结果 , 其聚类的基本过程是 : 假设面板数据 xi ( t) , i = 1 ,2 , …, N ,0 ≤t ≤T ,第一步将每个数据 xi ( t) , i = 1 ,2 , …, N ,独自聚成一类 ,共有 N 类 ;第二步根据所确定的面板数据的相似指标把“距离”较近的两个面板数据聚合为一类 ,其它的面板数据仍各自聚为一类 ,共聚成 N - 1 类 ;第三步将“距离”最近的两个类进一步聚成一类 ,共聚成 N - 2 类 ; ……, 以上步骤一直进行下去 ,最后将所研究的面板数据全聚成一类。为了直观地反映以上的系统聚类过程 ,将对实际问题进行研究。　　四、实证分析改革开放近 30 年来 ,我国经济持续高速增长 , 人民的收入也不断提高。但是 ,长期以来 ,粗放型的经济增长方式没有得到根本改变 ,依靠高投入而带来高产出的做法越来越难以维系。在市场经济条件下 ,有效需求才是维持经济稳定增长的持久动力源。有效需求为有支付能力的需求 ,表现为居民的实际支出 ,它主要取决于居民的收入状况。近年来 ,我国实行了一些旨在扩大内需的宏观经济政策 ,但效果不甚明显 ,消费需求对经济增长的拉动作用没有充分发挥出来 ,使经济增长需求结构的偏斜更加突出 , 不利于我国经济长期健康稳定的发展。为了深入了解近年来我国城镇居民的收入和支出情况 ,找出不同区域的城镇居民在收入状况和支出行为上的差异 ,以便因地制宜地引导居民消费 ,笔者将对 1995 年至 2004 年全国 31 个省市城镇居民的人均年收入和消费性支出的面板数据进行聚类分析。文中的数据来自 1996 年至 2005 年的《中国统计年鉴》,由于篇幅有限 ,原始数据不再列出。通过对 1995 年至 2004 年全国 31 个省市的城镇居民收入状况面板数据的直观分析 ,只能大致看出 10 年来 ,我国城镇居民的收入水平在不断提高 ,却无法对各个地区的收入状况作出准确判断和区分。因而 ,有必要对其作聚类分析。根据上面介绍的方法 ,选择式 (12) ,欧氏距离作为该面板数据的相似指标 ,根据式 (2) 所定义的方差函数 ,选用离差平方和法进行聚类分析得到全国 31 个省市的城镇居民收入面板数据的聚类树形图 ,见图 1 。图 1 　1995 —2004 年全国 31 个省市城镇居民收入的聚类树形图　从图 1 中 ,可以清楚地得知 ,近 10 年期间 ,北京、浙江、广州和上海的城镇居民的人均年收入位居全国首列 ;天津、江苏、福建和西藏的城镇居民的人均年收入则属于第二个层次 ;山西、内蒙古、宁夏、贵州等广大中西部地区的城镇居民的人均收入水平则居全国末位。如果将最高收入省市的城镇居民的人均年收入与最低收入省市的城镇居民的人均年收入作比较 ,可以发现 ,十年来它们之间的差距维持在 2 03 倍左右 ,但是略有扩大的趋势 ,见图 2 。有效需求表现为居民的实际支出 ,并取决于居民的收入状况 ,那么具有高收入的省市的城镇居民是否会表现为高支出 ,各地区城镇居民的消费行为是否会与收入水平相对应呢 ? 为此 ,对 1995 年至 2004 年全国 31 个省市的城镇居民的人均消费性支出状况面板数据也作了聚类分析 ,并得到聚类树形图 ,见图 3 。从图 3 中 ,发现近 10 年期间 ,北京、上海、浙江和广州的城镇居民的人均消费性支出水平仍位居全 © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

2 　·14　　　· 统计研究 2007 年 4 月　不断扩大 ,地区发展不均衡 ,广大中西部地区仍大大落后于东部沿海地区。从动态角度看 ,各地区城镇居民的支出行为存在明显差异 ,部分省市的有效需求激发不足。北京、上海、浙江和广东四省市的城镇居民 ,由于现期收入很高 ,加上良好的经济发展势头使得他们有着乐观的未来预期 ,故而能充分激发出有效需求。福建、天津和江苏等地 ,收入水平较高 , 但还未能充分引导居民消费 ,有效需求有待进一步提升。　　五、结束语通过面板数据聚类分析方法的具体应用 ,发现原有的聚类分析方法只能解决静态问题 ,进行面板数据聚类分析的研究 ,不仅可以弥补聚类分析的理论 ,而且可以从动态的角度描述事物的类别 ,进一步对实际问题进行深入的研究。面板数据的聚类分析只是从统计学的角度研究面板数据的一小部分内容 ,而且聚类分析的方法和思路也不能局限于此 ,还有多指标面板数据的聚类分析 ,不同时间间隔情形的聚类分析问题 ,这也是正在研究的内容之一。　　参考文献 [ 1 ] Hsiao C. , Analysis of Panel Data [ M ] . 北京 : 北京大学出版社 , 2005. 21 —92. [ 2 ] Hsiao T. P. and Chih Y. Y. Comparison of Linear and Nonlinear Models for Panel Data Forecasting :Debt Policy in Taiwan [J ] . Review of Pacific Basin Financial Markets and Policies ,2005 (3) :525 —541. [ 3 ]Bonzo D. C. and Hermosilla A. Y. Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms [J ] . Advances in Complex Systems , 2002 (4) :339 —360. [ 4 ]Ramsay J . O. and Silverman B. W. Functional Data Analysis [ M] . New York :Springer Verlag New York , Inc ,1997. 11 —83. 作者简介朱建平 ,河南省 ,1962 年生 ,男 ,2003 年毕业于南开大学数学科学学院统计学系 ,获理学博士学位 ,现为厦门大学经济学院教授 ,博士生导师 ,计划统计系副主任 ,主要研究方向为数理统计、数据挖掘。陈民恳 ,浙江省 ,1982 年生 ,男 ,厦门大学经济学院计划统计系硕士研究生 ,研究方向为多元统计与数据挖掘。 (责任编辑 :李峻浩) 图 2 　最高收入省市城镇居民的人均收入与最低收入省市的人均收入比值　图 3 　1995 —2004 年全国 31 个省市城镇居民支出的聚类树形图　国首列 ,而收入水平较高的福建、天津、西藏和江苏则与收入水平低它们一筹的云南、四川、山东、重庆和湖北等地的支出水平相近 ,收入最低的广大中西部省市的城镇居民的支出水平仍排在全国的末位。通过分析发现 ,1995 年以来 ,我国城镇居民的收入水平不断提高 ,人民生活不断改善 ,但贫富差距 © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net

分享到：

赞收藏

资料库

面板数据的聚类分析及其应用_朱建平.pdf

相关推荐

行业

热门标签

最新资料