logo资料库

基于k-means聚类的财务欺诈类型分类 .pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 基于 k-means 聚类的财务欺诈类型分类# 李旭升,文柳,石朝锋* (西南交通大学经济管理学院,成都 610031) 5 摘要:本文采用类内、类间距离的比值确定聚类数的方法,结合 k-means 聚类对上市公司的 财务欺诈数据进行分析,并对财务报表的欺诈类型进行分类总结,为进一步研究财务欺诈行 为提供了参考。 关键词:财务欺诈;欺诈类型分类; k 均值聚类;类内类间距离比 中图分类号:TP391 10 The Classification of Financial Fraud Based on k-means Cluster LI Xusheng, WEN Liu, SHI Chaofeng 15 (School of Economics & Management, Southwest Jiaotong University, Chengdu 610031) 20 25 30 35 40 Abstract: I Reading the uncertainty of k in the k-means cluster,this paper utilizes the ratio of intra-cluster distance and class distance to decide the number of clusters, analyzes the financial fraud dates of the listed companies based on k-means Clustering,and classifies the fraud types of the financial statements. This paper can provide some important reference for future research on financial fraud. Key words: Financial Fraud;The Classification of Fraud Types;K-means Clustering;The Ratio of Intra-cluster Distance and Class Distance 0 引言 随着资本市场的日益发展,上市公司的财务欺诈事件层出不穷,为维护投资者的经济利 益,保持经济社会的有序发展,越来越多的学者投入到财务欺诈的研究。目前对财务欺诈的 研究主要集中在三个方面,一是对财务报告舞弊原因的研究,Albrecht(1995)[1]提出了舞 弊三角理论,该理论认为企业舞弊的产生是由动机/压力、机会和自我合理化三个要素共同 作用形成的;Bologna 和 Lindquis(1995)[2]从公司的结构和行为分析舞弊原因,舞弊中的 结构是指组织的内部管理,它是客观并且可以是进行判别的,而舞弊的行为部分则倾向于主 观且不易发觉;蒋义宏(2002)[3]从企业管理者和财务信息使用者之间的信息不对称角度分 析了会计失真的原因并提出了相关治理方法。二是针对财务报表舞弊手段的研究,从会计操 纵方面分析财务欺诈,如韩嘉佳,薛婷(2009)[4]从虚增销售收入、任意递延费用、关联交 易等 5 个方面阐述了财务舞弊手段。卢玉静、仲陈建(2011)[5]从经济业务发生阶段对凭证 的舞弊、会计确认阶段对会计报表的造假和在会计政策及核算上造假三个方面分析舞弊手 法。三是利用一定的财务指标构建财务欺诈识别模型,用以预测或者检验公司的财务危机。 如 Ahman(1966)[6]首先运用判别分析法,利用几种财务指标加权汇总产生的总判别值(z 值)来预测公司财务危机,建立了企业财务危机预警模型。华长生(2008)[7]利用逐步判别 分析模型对上市公司的财务欺诈进行识别。陈亮,王炫(2003)[8]利用单因素方差分析对我 国的上市公司财务欺诈进行分析和识别。这些研究为财务欺诈识别奠定了基础,但是并没有 对欺诈的行为进行有效的分析。由于对财务欺诈行为类型的识别和分类,更容易使我们认清 基金项目:国家自然科学基金(71271174);国家自然科学基金(71071102) 作者简介:李旭升(1970-),男,副教授,博士,硕士生导师,主要研究方向:数据挖掘与决策支持系统, 财务预警,信用评价. E-mail: xsli@swjtu.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 财务欺诈的本质和手段,便于监管部门及早发现问题,规范审计手段、制定相应对策,因此 迫切需要进行相关研究。当前财务欺诈类型的研究文献较少,而其他行业则进行了相关研究, 如陈萍(2010)[9]从办理虚假证件等七个方面阐述了电信欺诈的类型;陈鑫(2008)[10]和薛 湘(2007)[11]分别论述了健康保险行业和车辆保险行业的欺诈类型。这些研究为我们从事 财务欺诈类型的研究提供了启示,不同于前人从财务舞弊原因、欺诈手段进行分析或者根据 45 特定财务指标构建判别模型,本文主要借助 k-means 聚类分析对上市公司的财务欺诈类型进 行分类总结,定性的分析财务欺诈在指标上的体现,最终总结出财务欺诈类型并加以阐述, 为以后的财务欺诈研究提供参考。 1 K-means 聚类 50 聚类是一种无监督的学习方法,针对聚类分析的研究已经有着很长的历史,其在统计学、 生物学、地理学等诸多领域得到了广泛应用。目前,主要将聚类算法大致分为以下几类:基 于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法[12]。 而基于划分方法中的 k-means 聚类方法凭借其易描述性、高效性、简单易实现性和收敛速度 快等诸多优点得到了广泛应用。因此,本文将采用 k-means 聚类算法对上市公司的财务欺诈 55 进行分类总结。 k-means 聚类是一种迭代的聚类算法,其基本思想是:(1)首先选取 k(k 为聚类数) 个数据点作为初始聚类中心。(2)然后计算每个数据点与各个初始聚类中心之间的距离, 并把每个数据点分配给与之最近的聚类中心。(3)更新类的平均值;(4)反复迭代步骤(2) 和(3)直至聚类中心不再发生变化,最后达到类内差异最小,类间差异最大的效果[13]。 60 虽然 k-means 聚类有着上述诸多优点,但是随着研究的深入,该算法的不足之处纷纷显 露出来,主要包括:聚类效果依赖于 k 值的预先设定和初始聚类中心的选取、无法处理有分 类型属性的数据、容易陷入局部最优解。因本文没有涉及分类型属性数据且局部最优解的结 果和初始聚类中心的选取有关,因此本文主要针对前两处不足提出改进措施。 1.1 K 值的选取 65 由于 k-means 聚类需预先设定 k 值,因此聚类数的设定对聚类效果有着直接影响。在以往的 研 究 中 , k 值 的 选 取 主 要 是 根 据 研 究 人 员 的 专 业 判 断 或 者 根 据 相 关 判 定 指 标 , 如 Davies-Bouldin 指标[14]、Calinski-Harabasz 指标[15]、BWP[16]指标等,为克服专业判断的主观 随意性和兼顾算法的易实现性,本文采用了类内、类间距离的比值来确定聚类数。此处定义 类内距离为所有子类内部距离之和(每个子类的内部距离为该子类内所有样本到其中心点的 70 距离之和);类间距离为各个子类的聚类中心到全体样本聚类中心的距离总和。一个好的聚 类应使样本与其中心之间的距离尽可能地小,而聚类中心之间的距离尽可能地大,因此,可 将类内距离和类间距离的比值作为一个衡量标准。Rezaee 等(1998)[17]指出最佳聚类数应 该在 2 与 之间,其中 n 为样本总数,通过在[2, ]之间逐个选取 k 值,并利用类内、 类间距离的比值作为判定标准,当比值的下降趋势明显减少时表明此时 k 值的增加对类内距 75 离的减少和类间距离的增加影响不再显著,因此我们可以认为此时的 k 值为较优聚类数。 1.2 初始聚类中心的选取 初始聚类中心的选取对聚类结果同样有着较大影响,随机选取初始聚类中心得到的聚类 结果往往具有不稳定性,容易陷入局部最优聚类结果,Duda(1973)[18]提出可以通过多次 随机取样,选取较优初始聚类中心。因此本文从实验角度出发,将作为判定聚类结果标准之 - 2 -
中国科技论文在线 http://www.paper.edu.cn 80 一的类内误差平方和作为选取初始聚类中心的参考依据。选取一系列的随机种子,其对应的 类内误差平方和越小,则表明其类内凝聚度越高,因此可将最小类内误差平方和对应的种子 点作为初始聚类中心。 2 实证研究 2.1 样本选取 85 目前对公司存在财务欺诈行为的判定有两种标准,一是将受到行政处罚作为财务欺诈 的界定标准;二是根据年度报告中的审计意见作为界定标准,如陈孝新在 2005 年将审计意 见为“拒绝表示意见”或“否定意见”的公司作为欺诈样本[19],但是这种判定标准忽略了审计意 见购买的问题,因此本文定义欺诈样本为证监会行政处罚公告中明确表示存在“信息披露虚 假、严重误导性陈述或重大遗漏情况”的上市公司[20]。 本文的样本数据来自中国证券监督管理委员会、上海证券交易所、深圳证券交易所、金融数 90 据库(CCER)以及上市公司的年报资料。鉴于不同行业公司财务数据的差异性及监管部门 披露欺诈信息的时滞性(从公司发生财务欺诈到给予行政处罚公告往往需要超过一年的时 间),因此本文选取的样本为 07 年上市公司 C 类(制造业类)样本,总量共计 898 例。 2.2 指标选取 95 本文根据我国上市公司公布的财务数据及财务指标对公司状况的反应程度,综合国内外 研究成果[21.22],本文拟选取的财务指标如下:资产负债率、流动比率、存货周转率、应收账 款周转率、净资产收益率,现对财务指标解释如表 1 所示: 表 1 指标列表及其说明 Tab.1 Indicator list and descriptions 名称 计算公式 说明 资产负债率 负债总额/资产总额×100% 表示公司总资产中通过负债筹集的资产所占的率,该指 标是分析企业长期偿债能力的重要指标,同时也是衡量 公司利用债权人资金进行经营活动能力的指标。 流动比率 流动资产合计/流动负债合计×100% 该指标是用来衡量企业流动资产在短期债务到期以前,可 存货周转率 销售成本/平均存货 该指标用于反应存货的周转速度,体现企业的短期偿债 以变现用于偿还负债的能力。 能力。 应收账款周转率 赊销收入净额/应收账款平均余额 该指标说明在一定期间内公司应收账款转为现金的平均 次数,若周转率越高,表明公司的资金使用率越高。 2.3 数据预处理 标准化是指通过数学变换来消除量纲影响,本文采用的标准化方法是正态标准化(0,1) 100 方法。之所以对指标进行标准化预处理,是因为即使相同行业,在不同财务指标之间仍然存 在较大差异,而数据标准化能够将数据转化为以 0 为均值,在[-1,1]之间消除量纲影响的值, 这样更加有利于稍后的数据处理。 2.4 数据处理 本文共选取了 8 组随机种子,在不同聚类数下对应的误差平方和如表 2 所示(其中横轴 105 为聚类数,纵轴为随机种子): - 3 -
中国科技论文在线 http://www.paper.edu.cn 表 2 误差平方和表 Tab.2 error sum of squares 2 3 4 ... 9 10 10 4.775483 3.494951 3.197699 ... 1.522715 1.50135 50 4.775483 3.587121 3.295958 ... 1.522848 1.107821 100 4.830487 4.572649 2.91762 ... 0.970734 0.947431 200 4.867564 3.587121 3.295958 ... 2.37145 1.591797 300 4.775483 4.474116 3.19666 ... 0.581481 0.517541 400 4.770285 3.459475 4.354824 ... 2.058173 2.037742 500 4.770285 4.357012 4.203753 ... 0.580901 0.516103 600 4.650159 4.349631 3.363629 ... 1.880186 1.034641 据前文所述,选取不同聚类数下最小误差平方和对应的随机种子作为此次聚类的初始中 心。由最佳聚类数在[2, ]之间取得和本文目的在于根据类内、类间距离下降趋势确定较 优k值,因此根据实际情况将全体样本分为2—10类即可。所得分类结果的类内距离、类间距 离及其比值如表3所示: Tab.3 Intra-cluster Distance / Class Distance and The Ratio of Intra-cluster Distance and Class Distance k 类内距离 类间距离 比值 表 3 类内、类间距离及其比值图 2 606.8684 13.58433 44.67415 3 578.8583 35.4996 16.30605 4 547.4159 61.00573 8.973189 5 509.0581 92.38755 5.510029 6 441.3264 93.6643 4.711788 7 435.6204 121.5673 3.583368 8 363.4777 122.5043 2.967061 9 346.1446 124.3908 2.782719 10 316.370 126.2625 2.505655 110 由上表可知,随着分类数的增加,类内、类间距离比值趋于平稳,并最终将会收敛于1, 这是因为随着k的增加,单个样本最终各成一类,此时的类内距离和类间距离相等。当k从2 取到4时,比值均减少50%左右,当k由4取到5时,比值由8.97下降到5.51,降幅约为38.6%; 当k由5取到6时,比值由5.51下降到4.71,降幅约为14.5%。说明当k=5时,比值的减少幅度 明显降低,此时随着分类数的增加,类内距离的减少以及类间距离的增大已经变得不再明显, 115 所以取k=5是合理的。 当样本总体分为5类时,其最终聚类中心如表4所示: 表 4 最终聚类中心 Tab.4 final clustering center 1 2 3(正常类) 4 5 指标 (1) (1) (892) (2) (2) 1 流动比率 -0.3031 0.9927 0.0005 -0.3969 -0.1759 2 存货周转率 -0.1499 -0.0728 -0.0391 0.115 17.4268 3 应收账款周转率 -0.0542 29.0134 -0.0322 -0.0865 -0.0533 4 资产负债率 0.0872 -0.0937 -0.0461 20.6377 -0.0583 5 净资产收益率 -25.2099 0.0641 0.0284 -0.1285 0.044 - 4 -
中国科技论文在线 2.5 结果分析 http://www.paper.edu.cn 在上述财务指标中,资产负债率和流动比率属于偿债能力指标;存货周转率、应收账款 周转率为营运能力指标;净资产收益率为盈利能力指标。根据指标所属类别可将欺诈类型总 120 结为三种类型,其中第2类和第5类归属为同一类型,第1类和第4类各成一类。 a)基于企业偿债能力的财务欺诈 从企业经营角度来看,公司的资产负债率在一定水平下越高表明其负债经营的程度越 高,企业越充满活力。但是,过高的资产负债率将会侵蚀企业的经营成果,最终造成资不抵 债。Persons(1995B)[23]表示高负债水平的公司相对于其同行业的公司,会增加财务报告舞弊 的可能性。流动比率反映了一定时间点上企业的流动资产对流动负债的保证程度,体现了企 125 业的短期偿债能力。企业的流动比率在一定水平下越高则表明企业的短期偿债能力越强,反 之则越弱。本文第四类样本相比正常样本(第三类样本)来说其资产负债率过高,且流动比 率较低,说明此时企业已陷入经营困境,结合公司近几年年报可以发现,这类公司均处于连 续亏损状态,公司为避免下市极有可能采取一定的手段粉饰财务报表。 130 b)基于企业营运能力的财务欺诈 企业的营运能力可以反映其经营运行能力,是企业充分利用各项资产以获得利润的能 力,通过对其分析可以了解企业的运转情况,运转良好的企业可以有效的利用企业的各种资 源,减少成本,提高企业的收益。本文中第二类和第五类样本同属一种类型,其相比正常样 本有较高的应收账款周转率和存货周转率,此处的高应收账款周转率和存货周转率,一方面 135 可能与企业自身的主营业务有关,这两类公司均为环保资源型公司,主要业务为污水处理和 自来水供应;另一方面也可能是新型的欺诈方式,这有待进一步的研究。 c)基于企业盈利能力的财务欺诈 企业利润是投资者、经营者都非常关心的问题,企业的盈利能力就是指企业获取利润的 140 能力,而获取利润又是企业的经营目标,也是企业可持续发展的根本保障,因此,一个企业 的盈利能力直接关系到企业的生死存亡。李伟(2011)[24]指出盈利能力较弱的企业发生财 务欺诈的可能性较大。根据我国现状,当公司连续三年亏损将会暂停上市,连续四年亏损则 终止上市。因此当经营不良时,很多公司为了避免退市的危险不惜弄虚作,采用非法手段粉 饰财务报表。以文中第一类样本为例,其净资产收益率远远低于正常样本也正好印证了李伟 的观点。 145 当然,每种欺诈类型并不是独立存在的,在一个欺诈案例中很有可能同时出现两种或者 三种欺诈类型。例如在第一类样本中就同时存在基于偿债能力和盈利能力这两种欺诈类型, 只是基于盈利能力欺诈这一类型更加明显。 2.6 总结 150 综上,上市公司的欺诈类型可以分为基于偿债能力、盈利能力以及营运能力的财务欺诈 三种类型。一般来说,欺诈公司的偿债能力和盈利能力均较弱,体现在财务指标上为资产负 债率过高和流动比率、净资产收益率较低;这与 Green 和 Choi(1997)[25]提出的财务欺诈 公司具有较高的资产负债率,较低的资产净利率相符。本文中第二种欺诈类型,基于营运能 力的财务欺诈,欺诈公司有着较好的营运能力,可能与公司自身的经营特点有关,也能是新 型的欺诈手法,这有待进一步研究。 - 5 -
中国科技论文在线 http://www.paper.edu.cn 155 3 结论 本文利用类内、类间距离的比值确定聚类系数 k 并对样本进行聚类,根据聚类结果对上 市公司的欺诈类型进行分类,得出常见的几种财务欺诈类型,从而为投资者以及监管部门提 供大致的参考标准,使他们在投资决策前能够更加有效的辨别公司的财务状况并为以后的财 务欺诈识别提供参考依据。然而,本文仍然存在许多不足之处,如指标选取的片面性、欺诈 160 样本数量过少会对研究结论产生一定影响。 [参考文献] (References) 165 170 175 180 185 190 195 [1] W. Steve Albrecht, Gerald W. Wemz, Timothy L. Williams. Fraud: Bringing Light to the Dark Side of Business [M]. Chicago: Irwin Professional Publishing,1995. [2] G Jack Bologna, Robert J. Lindquist. Find Fraud Auditing and Forensic Accounting [M]. New York: John Wiley& Sons Inc,1995. [3] 蒋义宏.会计信息失真的现状、成因与对策研究--上市公司利润操纵实证究[M].北京:中国财政经济出版 社,2002. [4] ]韩嘉佳,薛婷.财务报表舞弊手段简析[J].现代经济信息,2009,(20):200. [5] 卢玉静,仲陈建.上市公司会计舞弊手段分析[J].科学与管理,2011.(2):9-11. [6] Altman E I.Financial Ratios,Discriminate Analysis and the Prediction of Corporate Bankruptcy[J].Journal of Finance,1968,(9):589-609. [7] 华长生.逐步判别分析模型在识别上市公司财务欺诈中的应用[J].当代财经,2008,(12):119-122. [8] 陈亮,王炫.会计信息欺诈经验分析及识别模型[J].证券市场导报,2003,(8):52-56. [9] 陈萍.电信行业常见欺诈类型与反欺诈系统分析[J].电信技术,2010,(11):66-68. [10] 陈鑫.健康保险欺诈类型与防范对策[J].经济师,2008,(4):235-237. [11] 薛湘.机动车辆保险欺诈类型危害、成因与治理[J]. 广东培正学院学报,2007.(7):67-68. [12] ]HAN Jiawei,Micheline K.数据挖掘概念与技术 [M].北京: 机械工业出版社,2005. [13] 刘兵.Web 数据挖掘[M].北京:清华大学出版社,2009. [14] Calinski T, Harabasz J. A dendrite method for cluster analysis[J]. Communications in Statistics,1974,3(1): 1-27. [15] Davies D L, Bouldin D W. A cluster separation measure[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence.1979, 1(2):224-227. [16] 周世兵.聚类分析中的最佳聚类数确定方法研究及应用[D].江苏:江南大学,2011. [17] Rezaee M R,Lelieveldt B P,Reiber J H.A New Cluster Validity Index for the Fuzzy C-Means [J].Pattern Recognition Letters,1998,19( 3- 4) :237-246. [18] Duda R O,Hart P E.Pattern Classification and Scene Analysis [M].New York: John Wiley &Sons Inc.1973. [19] 陈孝新.上市公司财务欺诈的识别模型[J].统计与决策,2005,(7):44-45. [20] 杨芳.上市公司财务欺诈识别[D].湖南:湖南大学,2006. [21] 鲍新中,武鹏,周雨.基于聚类-灰色关联分析的财务预警指标筛选研究[J].学术研究,2012,(7):72-78. [22] David Corderre .Fraud Detection: Using Data Analysis Techniques to Detect Fraud [J].EDPACS: The EDP Audit, Control, and Security Newsletter,2000,(27):1-2 [23] O.S. Persons. Using financial statement data to identify factors associated with fraudulent financing reporting [J].Journal of Applied Business Research,1995,(3): 38-46 [24] 李伟.上市公司财务欺诈起因与防范研究[D].四川:西南财经大学,2011. [25] Green B.P, Choi J.H. Assessing the risk of management fraud through neural network technology [J]. Auditing .A Journal of Practice and Theory,1977,16 (1):14-28. - 6 -
分享到:
收藏