中国科技论文在线
http://www.paper.edu.cn
我国上市公司财务报表欺诈实证研究——
基于神经网络、决策树和 Logistic 回归模型
唐琴蕊,陈赛亚,何莹*
(浙江大学管理学院管理科学与工程系,杭州 310058)
摘要:本文采用特征选择、主成分分析法对变量进行选择,再使用神经网络、决策树和 Logistic
回归模型对我国 101 家有欺诈行为的上市公司及与其匹配的没有欺诈行为的 101 家上市公司
的各项财务指标进行分析,使用假设检验统计方法,旨在找到最能反映财务欺诈问题的变量
或者因子,以期寻求准确率最高的建模方式,预测别的企业是否可能有欺诈行为。
关键词: 数据挖掘;财务欺诈;神经网络;决策树;Logistic 回归
中图分类号:TP311.13 F275
An Empirical Study of China Listed Companies' Financial
Statement Fraud Based on Neural Network,Decision Tree
and Logistic Regression
(Department of Management Science and Engineering,Management School, Zhejiang University,
TANG Qingrui, CHEN Saiya, HE Ying
Hangzhou 310058)
Abstract: In this paper Feature Selection and PCA are used to select the variables which are more
accurate to detect fraud. And then takes the Neural Network, Decision Tree, Logistic Regression and
hypothesis testing as the methods to analyze 101 fraud companies and their 101 matching competitors.
Our goal is to recognize the key factors to determine the fraud activity, and to gain a most precise
model to foresee a hinded fraud activity.
Key words: Data Mining;Financial Fraud;Neural Network;Decision Tree;Logistic Regression
0 引言
财务欺诈是指公司在财务报告中蓄意错报、漏报或误导以欺骗财务报告使用者的行为。
近几年,全球特别是美国的一些上市公司刮起了财务舞弊风暴给投资者与债权人造成了重大
损失,并使得社会公众对一些上市企业产生了空前的信任危机。在我国,如何防范财务欺诈
是一个长期存在的财务管理难题,而对于财务欺诈的预警系统也是目前中西方财务理论界处
于探索阶段的课题。在这样的背景下,我们以 202 家我国上市公司的财务数据作为数据资料,
主要探讨财务报表中的数据造假行为,使用神经网络、决策树和 Logistic 回归等多种算法构
建我国上市公司财务欺诈的预警模型,并且三种算法进行比较,选出准确率最高的模型。
1 文献综述
赵明凤(2007)在进行数据挖掘以前,对财务指标进行了描述统计和均值的 t 检验,证
明了有欺诈行为的公司与没有欺诈行为的公司的财务欺诈指标有显著差异,因此,可以用反
映了上市公司财务欺诈的指标来构建一个财务预警模型。她还使用了主成分分析挑选指标。
特别值得注意的是,她使用了 2005 年的非欺诈公司数据进行检验,以验证模型的可行性。
吴芃,蔡秋萍(2007)对财务指标先进行了计算,分别按照盈利能力、偿债能力、营运
作者简介:唐琴蕊(1988-),女,大四本科生,数据挖掘. E-mail: tangqr@zju.edu.cn
- 1 -
中国科技论文在线
http://www.paper.edu.cn
能力、现金流量和成长能力五个方面,计算出 15 个财务指标。对这些财务指标进行了方差
分析,以找出有显著差异的变量。这点上,跟赵明凤是一致的。他们在模型建立上,采用了
主成分分析、线性判别预警模型和 Logistic 回归模型。再比较分析三种模型,发现 Logistic
回归模型的准确率是最高的。他们的创新之处在于存在模型之间的比较。
曹明,闪四清(2006)在使用决策树来建立财务预警模型上采用了 D3 算法,他们着重
于数理的模型建立过程,而不是得到结果以后的结果分析。之后还采用了神经网络模型,从
而得到一个综合的混合型的财务欺诈预警模型。
张小宝(2007)使用了四种有代表性的特征选择算法和六种分类算法。特征选择的方法
有基于一致性的算法、基于相关性的算法、ReliefF 算法和包裹法。而六种分类算法分别为
决策树 C4.5、回归树 M5、误差反向传播神经网络、k-最邻近算法、逻辑回归和贝叶斯网。
使用这些模型,建立财务预警系统。
P. Ravisankar(2010)在面对财务欺诈问题时,使用多层前馈神经网络、支持矢量工具、
遗传算法、聚类数据处理、Logistic 回归和概率性神经网络等多种方法进行建模,进行了特
征选择,分别选择出 18 个重要变量和 10 个重要变量进行准确率的比较,找出准确率最高的
模型。
谢邦昌(2008)阐明了数据挖掘分类时可以采用的方法,诸如决策树、神经网络等。最
重要的是,详细解说了 SPSS Clemintine 11.0 的使用方法和使用条件,使得建模的过程变得
简便。他并没有对某些特定的问题进行深入探讨。
J.Han(2000)则是从基础介绍了数据挖掘的概念,涉及到数据预处理等。在分类与预
测方面,他着重介绍了判定树、贝叶斯分类、反向传播分类三种分类方法,简略介绍了 k-
最邻近分类、遗传算法等。同样的,他是基础概念上的解释,也不是实际应用。
2 研究方法和模型
对财务欺诈进行预警,是属于数据挖掘中的分类方法。所谓分类,是根据一些变量的数
值作计算,再依照结果作分类。可以用分类的数据来研究它们的特征,然后再根据这些特征
对其他未经分类或是新的数据作预测。根据分类的概念,可以看出,财务预警模型与分类是
切合的。常用的分类方法中,我们使用神经网络、决策树和 Logistic 回归三种方法进行分析。
其中涉及到特征选择和主因素分析对变量的筛选。
但是,必须明确的是,进行特征选择和主因素分析以后,准确率是否有显著性变化,如
果有显著性差异,才能证明特征选择和主因素分析是确实起到了作用的。在此,对未进行特
选选择和主因素分析,只进行特征选择,只进行主因素分析,既进行特征选择又进行主因素
分析四种情况的准确率进行 30 次的统计,取均值进行比较,选择最大准确率的情况。同时,
神经网络、决策树和 Logistic 回归三种模型的准确性是否有显著性差异,是一个需要假设检
验的问题。在有显著性差异的情况下,选出准确率最高的模型,即是我们的财务预警系统中
的最佳模型。
本研究应用 SPSS Clementine12.0 和 SPSS 16.0 对数据进行处理。在此,对使用到的模型
做简单的介绍。
2.1 神经网络
神经网络模型是模仿生物神经网络功能的一种经验模型。生物神经元受到传入的刺激,
其反应又从输出端传到相联的其它神经元,输入和输出之间的变换关系一般是非线性的。神
- 2 -
中国科技论文在线
http://www.paper.edu.cn
经网络是由若干简单元件及其层次组织,以大规模并行连接方式构造而成的网络,按照生物
神经网络类似的方式处理输入的信息。模仿生物神经网络而建立的人工神经网络,对输入信
号有功能强大的反应和处理能力。
若干神经元连接成网络,其中的一个神经元可以接受多个输入信号,按照一定的规则转
换为输出信号。由于神经网络中神经元间复杂的连接关系和各神经元传递信号的非线性方
式,输入和输出信号间可以构建出各种各样的关系,因此可以用来作为黑箱模型,表达那些
用机理模型还无法精确描述、但输入和输出之间确实有客观的、确定性的或模糊性的规律。
因此,人工神经网络作为经验模型的一种,在社会科学研究中已得到了越来越多的用途。
2.2 决策树
决策树是一种用树枝状展现数据受各变量的影响情形的预测模型,根据对目标变量产生
之效应的不同而建构分类的规则,它利用了概率论的原理,并且利用一种树形图作为分析工
具。其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代
表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策
者提供决策依据。简言之,决策树是用样本的属性作为结点,用属性的取值作为分支的树结
构,它是利用信息论原理对大量样本的属性进行分析和归纳而产生。
2.3 Logistic 回归
Logistic 回归(Logistic Regression ,简称 LR)是一种常见的算法,该方法先将样本属
于两个类别的概率之比取对数(也称为 Logit 变换),再用样本的指标变量对其进行线性回
归,以此估计某个样本实例属于两个类别中的一个类别的概率。是用于预测的重要方法。
模型的具体形式为:
Logit(p) =β0+β1*X1+β2*X2+…+βn*Xn
其中,参数 β(β0,β1…βn)为回归系数,是待估计的参数。
3 数据描述与筛选
3.1 数据描述
我们在 1996 至 2005 年这十年中在沪深两市上市的公司中选取有过财务欺诈行为的 101
家公司作为研究对象,接着依据相同时期、规模相当、行业相同、产品相同或相近的原则选
出 101 家相匹配的未有过财务欺诈的上市公司。对于这 202 家公司,我们选取了反映上市公
司营运能力、偿债能力、盈利能力和成长能力四个方面的共 13 个财务指标变量作为备选指
标变量,利用主成分分析从 28 个备选指标变量中选取 13 个指标变量用来构建我们的财务欺
诈预警模型。将所有的 202 家公司的数据放在一起,我们将其中 70%的数据作为样本,用
决策树的方法建立起这个模型,最后又以其中 30%的数据来对预警模型的有效性进行检验。
在进行财务指标计算以前,我们先就缺失值进行了处理。数据源本身的缺失值非常少,
但为了避免财务指标计算后,产生大量缺失值的记录,对缺失值还是进行了均值填充。
3.2 财务指标解释
选取的财务指标,主要是一般衡量一个企业经验状况的重要指标。分别从偿债能力、营
运能力、盈利能力和成长能力四个方面引入,再加上财务报名中原有的一些科目,共同进入
模型分析,以发现这些指标和科目与财务欺诈的关系。
- 3 -
中国科技论文在线
http://www.paper.edu.cn
3.2.1 偿债能力分析
3.2.1.1 流动比率
流动比率=流动资产/流动负债
流动比率通常用来衡量企业流动资产在短期债务到期以前,可以变为现金用于偿还负债
的能力。一般认为,该指标越高,表明企业短期偿债能力越强,债权人越有保障,安全程度
越高,但仍需考虑流动资产的质量。
3.2.1.2 速动比率
速动比率=速动资产/流动负债
速动比率主要用于衡量企业流动资产中可以立即变现用于偿还流动负债的能力。速动比
率的高低能直接反应企业的短期偿债能力的强弱,它是对流动比率的补充,并且流动比率反
映得更加直观可信。
3.2.1.2 现金比率
现金比率=现金类资产/流动负债
该指标反映企业即刻变现能力,即不依靠存货销售及应收款的情况下,随时可以还债的
能力,是最稳健的衡量指标
3.2.1.3 资产负债率
资产负债率=负债总额/资产总额*100%
资产负债率反映在总资产中有多大比例是通过借债来筹资的,也用于衡量企业在清算时
保护债权人利益的程度
3.2.1.4 产权比率
产权比率=负债总额/所有权权益*100%
产权比率是为评估资金结构合理性的一种指标。一般来说,产权比率可反映股东所持股
权是否过多,或者是尚不够充分等情况,从另一个侧面表明企业借款经营的程度,是企业财
务结构稳健与否的重要标志。
3.2.2 营运能力分析
3.2.2.1 总资产周转率
总资产周转率=主营业务收入/总资产平均余额
总资产周转率是考察企业资产运营效率的一项重要指标,体现了企业经营期间全部资产
从投入到产出的流转速度,反映了企业全部资产的管理质量和利用效率。通过该指标的对比
分析,可以反映企业本年度以及以前年度总资产的运营效率和变化,发现企业与同类企业在
资产利用上的差距。一般情况下,该数值越高,表明企业总资产周转速度越快。销售能力越
强,资产利用效率越高。
3.2.2.2 应收账款周转率
应收账款周转率=主营业务收入/应收账款平均余额
应收账款周转率就是反映公司应收账款周转速度的比率。它说明一定期间内公司应收账
款转为现金的平均次数。它表示公司从获得应收账款的权利到收回款项、变成现金所需要的
- 4 -
中国科技论文在线
http://www.paper.edu.cn
时间。
3.2.3 盈利能力分析
3.2.3.1 销售毛利率
销售毛利率=(主营业务收入-主营业务成本)/主营业务收入*100%
销售毛利率,表示每一元销售收入扣除销售成本后,有多少钱可以用于各项期间费用和
形成盈利。销售毛利率是企业销售净利率的最初基础,没有足够大的毛利率便不能盈利。
3.2.3.2 总资产收益率
总资产收益率=息税前利润/平均资产总额=销售利润率*总资产周转率
总资产收益率指标集中体现了资产运用效率和资金利用效果之间的关系。在企业资产总
额一定的情况下,利用总资产收益率指标可以分析企业盈利的稳定性和持久性,确定企业所
面临的风险。总资产收益率还可以反映企业综合经营管理水平的高低。
3.2.3.3 净资产收益率
净资产收益率=净利润/平均净资产
净资产收益率反映股东权益的收益水平,用以衡量公司运用自有资本的效率。指标值越
高,说明投资带来的收益越高。
3.2.4 成长能力分析
3.2.4.1 资产增长率
资产增长率=本年资产增加额/年初资产总额
资产增长率反映企业本期资产规模的增长情况。资产是企业用于去的收入的资源,也是
企业偿还债务的保障。资产增长是企业发展的一个重要方面,发展性高的企业一般能保持资
产的稳定增长。资产增长率越高,表明企业一定时期内资产经营规模扩张的速度越快。
3.2.4.2 销售增长率
销售增长率=本年销售增长额/上年销售总额
销售增长率是衡量企业经营状况和市场占有能力、预测企业经营业务拓展趋势的重要指
标,也是企业扩张增量资本和存量资本的重要前提。该指标越大,表明其增长速度越快,企
业市场前景约好。
3.2.4.3 净利润增长率
净利润增长率=本年净利润增长额/上年净利润
净利润是指利润总额减所得税后的余额,是当年实现的可供出资人(股东)分配的净收
益,也称为税后利润。它是一个企业经营的最终成果,净利润多,企业的经营效益就好;净
利润少,企业的经营效益就差,它是衡量一个企业经营效益的重要指标。
3.3 指标筛选
3.3.1 基于特征选择的指标筛选
特征选择可根据不同的分析需要,寻找出那些重要的字段,特别是多种因子产生的结果,
它可以选取出那些极为重要的因子。它可以简化模型,而且特别适合于 Logistic 回归的建模
- 5 -
中国科技论文在线
http://www.paper.edu.cn
之中。
特征选择方法是机器学习领域的一种自动的特征选取方法,通过使用某种评价标准和搜
索策略将已知数据集合中的特征(指标)数目减少,其目的在于优化分类模型。作为一种优化分
类模型的方法,特征选择方法能自动从数据中选择判别性好、冗余低的特征集,如果能有效地
运用,将为财务报表分类模型的指标选取提供一种定量的科学的方法。
特征选择把原始多波段测量参数,经过变换重新组合,从中选定对识别分类更有效的特
征参数的过程特征选择节点运行之后,可以产生结果,将重要性的指标进行排序。从而选择
出最重要的一些影响因素。在我们的设计中,经过特征选择以后,按照重要性,选择出了净
利润、总利润、净资产收益率、总资产周转率、总资产收益率、资产负债率、短期借款、盈
余公积、未分配利润、主营业务收入、主营业利润、流动比率和资本公积,总共 13 个指标。
3.3.2 基于主成分分析的指标筛选
社会科学研究过程中,对于同一个变量,研究者往往用多个不同的问题来测量一个人的
意见。这些不同的问题构成了所谓的测度项,它们代表一个变量的不同方面。主成分分析法
被用来对这些变量进行降维处理,使它们“浓缩”为一个变量,称为因子。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可
以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变
量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题
的信息方面尽可能保持原有的信息。
主成分分析用于从大量变量中找出关键性的变量,从而使得变量变得精简,特别重要的
是,精简后的变量,在于后面的决策树模型也有极大的优化作用。
主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析
方法。又称主分量分析。我们将 13 个财务指标及 21 个财务报表中的项目进入主成分分析模
型。通过节点对 34 个变量的计算,选取了 10 个重要的因子。每个因子均是各种变量的不同
权重之下相加的结果。而从累计百分比中可以看到,10 个因子排名后所达到的比率。根据
一般习惯,只需要累计百分比达到 90%就可以有一个比较理想的结果。由此,我们选出前 7
个因子,剔除掉后面的 3 个因子。
表 1 主成分分析挑选出的财务指标列表
变量类别
基本财务科目
偿债能力
营运能力
盈利能力
变量
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
变量名称
短期借款
资本公积
盈余公积
未分配利润
净利润
总利润
主营业务收入
主营业务利润
流动比率
资产负债率
总资产周转率
总资产收益率
净资产收益率
注:各因子为不同指标乘以不同权重相加的结果。
- 6 -
中国科技论文在线
3.4 模型建立与分析
http://www.paper.edu.cn
在模型的建立中,我们采用了神经网络、决策树和 logistic 回归三种方法。此三种方法
为分类问题常用的方法。同时,由于前面采用了特征选择和主因素分析,已经对变量进行了
筛选或者加权产生新的因子,但也要明确的是,筛选的变量或者加权产生的新的因子,未必
对最后的准确率产生促进作用。有可能出现的情形是,未经过特征选择或主因素分析的数据
反而准确率更高。因此,在三种模型中,我们必须考虑到四种不同情况下的讨论,分别是:
未进行特选选择和主因素分析,只进行特征选择,只进行主因素分析,既进行特征选择又进
行主因素分析。
3.4.1 神经网络模型
该神经网络模型使用了 2 个隐藏层,一个隐藏层为 3 个结点,一个为 4 个结点。神经网
络模型的情况下,通过对未进行特选选择和主因素分析,只进行特征选择,只进行主因素分
析,既进行特征选择又进行主因素分析四种情况进行准确性的测试,每种情况进行 30 次的
计算,得准确率均值如下表:
表 2 神经网络模型的准确率均值
类型
特征选择和主成分分析均使用
只使用了特征选择
只是用了主成分分析
特征选择和主成分分析均未使用
Testing 准确率(%)
71.47%
70.79%
60.39%
57.29%
从表中可以看到,当特征选择和主成分分析均使用的情况下,testing 情况下的准确率最
高。因此,将对特征选择和主成分分析均使用的情况下的神经网络模型进行分析。
3.4.2 决策树模型
决策树模型依然从未进行特选选择和主因素分析,只进行特征选择,只进行主因素分析,
既进行特征选择又进行主因素分析四种情况进行分析,对 30 个样本取均值,选择准确率最
高的情况。
表 3 决策树模型的准确率均值
类型
特征选择和主成分分析均使用
只使用了特征选择
只是用了主成分分析
特征选择和主成分分析均未使用
Testing 准确率(%)
63.24%
67.65%
63.08%
60.29%
在决策树模型中,我们发现,只使用了特征选择的情况下,准确率最高,达到 67.65%。
3.4.3 Logistic 回归模型
Logistic 回归模型中,公司的注册号并不是一个必须的变量,仅代表一个公司,而如果
不将其除去,将会产生不可预料的后果,因此将其除去。Logistic 回归模型模型四种情况下
的准确率均值如下表:
- 7 -
中国科技论文在线
http://www.paper.edu.cn
表 4 Logistic 回归模型的准确率均值
类型
特征选择和主成分分析均使用
只使用了特征选择
只是用了主成分分析
特征选择和主成分分析均未使用
Testing 准确率(%)
72.06%
58.46%
69.70%
58.46%
从表中可以看出,特征选择和主成分分析均使用的情况下,准确率最高。
3.4.4 分析
从以上的表格中,经过比较可以得出:神经网络模型应该使用特征选择和主成分分析均
使用的情况,决策树应使用只使用了特征选择的情况,Logistic 应使用特征选择和主成分分
析均使用的情况。三个模型在对应情况下的均值分别为:71.47%,67.65%和 72.06%。
72.06%>71.47%>67.65,故 Logistic 模型对于此问题的描述最准确。
Logistic 回归方程如下:
Logit(p)=0.0000000008417* X1-0.000000001002* X2-13.74* X3+0.6005
其中为 X1 短期借款,X2 为资本公积,X3 为总资产收益率。
对短期借款、资本公积和总资产收益率做两个独立样本的 t 检验,以是否欺诈为分组变
量,使用 SPSS 16.0 分析,得出短期借款的方差齐性检验 sig 值为 0.180>0.05,说明欺诈与
不欺诈公司的短期借款的方差无显著差异,t 检验在观察方差齐性相等情况下的 sig 值为
0.045<0.05,说明欺诈与不欺诈公司在短期借款额度上有显著差异。资本公积的方差齐性检
验 sig=0.037<0.05,说明方差有显著差异,在此情况下的 sig=0.043<0.05,说明欺诈与不欺
诈公司在资本公积上有显著差异。总资产收益率的方差齐性检验中,sig=0.002<0.05,说明
方差齐性存在显著差异,此情况下的 t 检验的 sig=0.000<0.05,说明欺诈与不欺诈公司在总
资产收益率上有显著差异。故证明,Logistic 回归的三个变量都是有效的。
此方程最适合作为此项财务欺诈问题的预测。
3.4.5 讨论
P. Ravisankar 在讨论财务欺诈时,特征选择分别选出 18 个变量和 10 个变量,再由各种
分类方法的准确率来判断哪种方法最适合以及不同变量个数情况下的区别,然而,得出结论
后,却缺少对模型结果的具体探讨,仅以准确率做结,缺少对预测的指导作用。本研究修正
了这个缺陷,得出的 Logistic 回归方程更具有普适作用。
赵明凤,吴芃等在建模时,使用了主成分分析的方法,有自己的独创性。本研究则仅将
主成分分析当成是数据筛选的一个环节,为神经网络、决策树和 Logistic 回归模型准确率的
提高提供保障。而且,本研究还使用了特征选择,这也是创造之处。
张小宝使用了四种方法来进行特征选择,每种方法具有各自的优势,且采用了六种建模
方式,并且样本数量达到 1300 个,使得研究的可信度更高。本研究的样本选择过程中,更
着重于样本的代表性,特别是控制变量(同行业、同时期)的引入,虽然没有大量的样本,
却也使得研究的数据可信。
在 Logistic 回归方程中,我们发现资本公积、短期借款,这种在传统审计学意义上不是
很看重的变量,却是预测财务欺诈方面起到了重要作用,或许会给以后的研究起到一些借鉴
作用。而资本收益率这个指标,反应的是企业的盈利能力,表明上市公司资产利用的综合效
果,资产收益率越高,说明企业盈利能力强,则企业陷入困境需要报表造假的可能性就越小。
反映盈利能力的指标,是企业可能存在财务欺诈的重要依据。
- 8 -