logo资料库

保险营销的Apriori算法应用.pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
保险营销的 Apriori 算法应用 http://www.paper.edu.cn 杨威,耿立明,李义杰 辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛(125105) 摘 要:随着计算机与网络技术的飞速发展以及信息化的广泛“蔓延”,保险行业已经累计了 大量的历史信息资料,并且这些数据仍将继续膨胀。如何有效管理利用这些业务数据资料是 保险信息化的当务课题。数据挖掘技术作为分析处理数据的有效手段当前的发展已经日渐成 熟并且已经应用到部分领域及部门。 本文以关联规则数据挖掘技术为基础,在关联规则众 多算法中选择经典 Apriori 算法,通过理论和样本数据两方面应用于 Apriori 算法,实现关联 规则对保险营销的业务支持。 关键词:保险营销,关联规则,Apriori 算法 中图分类号: TP311 0. 研究背景 自上世纪末开始,随着计算机技术的强大和网络技术的不断进步,社会内各行业和办公 自动化产生了大量的业务数据,作为新中国建立不久的保险机制和保险行业和金融、银行、 财政、电信、烟草成为了“数据大户”,并且保险作为一种维护人民安全、权益和保障的产业 出现,有着它得天独厚的广阔市场和发展潜力,并从侧面反映了国家的经济发展情况。 如果没有 WTO,中国保险行业也许依然会沉醉于跑马圈地的扩张大战中。到 1999 年前 后,眼看着国内保险行业风雨即将来袭,各家保险公司才意识到,在外资保险企业诸多优势 中,其信息化应用水平总体上高出我国的保险企业。信息化水平高,发展就快,核心竞争力 就强,外资的进入对我国保险信息化提出了挑战,而国内保险公司布局上的优势并不足以对 抗这些挑战。于是,保险业信息化呼之欲出。 1. 保险简介 保险是用汇集起来的保险费建立保险基金,对被保险人因自然灾害、意外事故造成的损 害给予补偿,或因人身伤亡、健康等原因给予保障的经济法律制度[1]。保险行业是一个面向 众多客户、提供增值服务的行业,这就决定保险行业是高度客户需求导向的行业[2]。而且随 着市场竞争的愈演愈烈,现有的保险公司管理模式越来越难胜任动态的客户渠道和关系管 理,掩藏在市场竞争背后的是品牌竞争、服务竞争、客户竞争。保险行业能否与时俱进不断 创新成为保险企业生死成败的砝码,既要周到的服务维系老客户,不断发现老客户的需求, 又要凭借良好的大众服务形象来吸引开发新客户。 48.8% 16.64% 29.52% 3.58% 3.58% 1.46% 1.46% 图 1.1 2006 年 1-9 月各公司寿险份额统计 -1-
http://www.paper.edu.cn 从上图可以看出,尽管国外保险公司进入中国市场已有一段时间,但目前看来,国内公 司的市场份额仍是可以占到 95%左右。但不知这种情况可以维持多久,面对国外完整的管 理体系和工作作风,国内保险行业将进入行业发展的重要阶段。 2. 数据挖掘技术 数据挖掘是一个多学科交叉研究领域,它融合了数据库技术,人工智能,机器学习,统 计学,知识工程,面向对象方法,信息检索,高性能计算以及数据可视化等最新技术的研究 成果。 2.1 数据挖掘技术分类 常用的数据挖掘技术可以分成统计分析类、知识发现类和其他类型的数据挖掘技术三大 类。 利用统计分析类技术可以检查那些异常形式的数据,利用各种统计模型和数学模型解释 这些数据,解释隐藏在这些数据背后的市场规律和商业机会。对于保险业来讲,这个理论即 使在没有数据挖掘的信息化出现前,人们已经注意这方面数据收集分析,并以此竞争市场份 额和利润。 知识发现类数据挖掘技术可以从数据仓库的大量数据中筛选信息,寻找市场可能出现的 运营模式,发掘人们所不知的事实。知识发现类数据挖掘技术包含人工神经网络、决策树、 遗传算法、粗糙集、规则发现和关联顺序等。 其他的数据挖掘技术包含文本数据挖掘、Web 数据挖掘、分类系统、可视化系统、空间 数据挖掘和分布式数据挖掘等。其中文本数据挖掘和 Web 数据挖掘时近几年新兴的数据挖 掘技术,主要针对网络的迅速发展及网络信息进行数据挖掘。 2.2 数据挖掘的一般过程 数据挖掘与具体应用问题的密切相关,每一种数据挖掘方法在算法与技术要求上都有自 身的特点和实现步骤[3],因此,人们从系统化和方法学的角度,提出了一些数据挖掘过程的 参考模型或标准。 1.问题理解和提出:在开始数据挖掘之前最基础的就是了解行业基本情况、熟悉理解 数据和实际的业务问题,对目标有明确的定义。 2.数据准备和建立挖掘数据库:获取原始的数据,并从中抽取一定数量的子集,建立 数据挖掘库。 3.数据预处理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构, 就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析。 4.建立模型:根据实际问题、定义的问题以及数据的类型,采取适合的分析方法和模 型同时要根据数据的属性考虑采用相应的算法,自动的建立数据挖掘模型。 5.评估模型:模型的评估是数据挖掘成败的关键,不但要验证预测模型的过程正确, 同时使用这些模型的其他输入和输出过程也要正确。 6.数据挖掘:在数据抽取形成的表上,运用合适的算法进行数据挖掘。 7.评价和解释:通常在数据挖掘过程中,用户会对被抽取出来的数据进行分组,然后 运用模型进行数据挖掘。对于挖掘的结果应用两个指标进行评估,一个是支持度,用来验证 结果的实用性;一个是可信度,用来验证结果的准确性。 -2-
http://www.paper.edu.cn 成熟的技术如果应用到行业当中,将起到事半功倍的效果。处于这种考虑,本文借鉴其 他文献的同时,采用了数据挖掘中关联规则算法作为分析处理保险营销数据的核心技术。 3. 关联规则算法 关联规则数据挖掘是数据挖掘中最活跃的研究方法之一。最早是由 Agrawal 等人提出的 (1993)。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不 同商品之间的联系规则[4]。典型的关联规则的例子就是“90%的顾客在购买面包和黄油的同时 也会购买牛奶”。 图 3.1 关联规则的挖掘步骤 3.1 保险数据预处理 在该保险数据库中,令最小支持度的阈值为 3,最小支持度为 10%,最小置信度为 60%。 已知有保险销售信息数据如下表 3.1。 编号 T00001 T00002 T00003 T00004 …… T00030 年收入 表 3.1 某保险公司营销数据表 年龄 Y2 Y3 Y2 Y2 …… Y3 S2 S3 S3 S2 …… S2 险种 A AC AB AB …… AB 其中,险种表示该保险公司的个人保险的类型:A(养老保险类),B(意外伤害保险类), C(未成年保险类),其中还有多种保险,现已划分至以上三种。设数据库事务中项目都是 以字母顺序排列,编号用来标识,这里 TID 表示相应事务标识符,ITEM 则 表示项目名称。年龄和年收入为连续数值型数据,对其进行离散化、分组:年龄分为 Y1: 1-18,Y2:19-30,Y3:31-45,Y4:46-60,Y5:61-80 共 5 组;年收入分为 S1:1200-6000, S2:6000-12000,S3:12000-36000,S4:36000-+∞共 4 组(其中年收入在 S4 段的顾客全部 都参加了这三种保险类型的投保,因此在此将不采用此段数据)。 通过对上表数据处理可以得到基于事务数据库的 Apriori 算法可以操作的表 3.2。 TID T01 T02 T03 T04 …… T30 表 3.2 保险事务数据库选项集 -3- ITEM Y2S2A Y3S3AC Y2S3AB Y2S2AB …… Y3S2AB
3.2 Apriori 应用 在给定了的保险事务空间数据库中使用 Apriori 算法,可以生成最大频繁项目集,为生 成有用规则做必要准备。生成频繁集的过程如图 5.1、5.2。 http://www.paper.edu.cn 图 3.2 频繁 1-项集、频繁 2-项集的生成过程 在图 5.1 中描述了频繁项集以及其频繁项数,其中步骤(1)是对保险事务数据库表 5.4 应用 Apriori 算法,得到了 C1(候选集),(2)根据设定的最小支持度阈值为 3,经过筛选 得到了事务数据库的频繁 1-项集 L1,(3)经过 Apriori 算法中的连接和剪枝,筛选得到事务 数据库的频繁 2-项集 L2。 图 3.3 频繁 3-项集、频繁 4-项集、最大频繁项集的生成过程 在上图 5.2 种描述了与图 5.1 同样原理的 Apriori 算法连接剪枝的过程,(4)产生经过筛 -4-
选的频繁 3-项集 L3,(5)经过连接剪枝筛选生成的频繁 4-项集 L4,(6)最终形成了最大频 繁项集 L5(因为 L6= Φ )。 http://www.paper.edu.cn 3.3 规则总结 ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ∧ ⇒ B confidence=4/5=80% ∧ ∧ ∧ ⇒ S3 confidence=4/4=100% ∧ ∧ ∧ ⇒ C confidence=4/4=100%⑵ Y3 S3 A C ∧ ∧ ∧ ⇒ A confidence=0/4=0%⑷ Y3 A B C ∧ ∧ ∧ ⇒ Y3 confidence=4/4=100%⑹ Y3⇒ S3 A B C confidence=4/13=30.8% ⑻ A⇒ Y3 S3 B C confidence=4/29=13.8% ⑽ C⇒ Y3 S3 A B confidence=4/12=33.3% ⑴ Y3 S3 A B ⑶ Y3 S3 B C ⑸ S3 A B C S3⑺ ⇒ Y3 A B C confidence=4/12=33.3% ⑼ B⇒ Y3 S3 A C confidence=4/13=30.8% 根据设置的最小支持度 60%,可以得到最终输出的强关联规则为: Y3 S3 A B Y3 S3 A C Y3 A B C S3 A B C 如上规则可以总结为: 1 年龄在 Y3 段年薪在 S3 段的客户中,如果投保在 A 和 B 的同时,对于 C 类保险投保可信度是 100%。 2 年龄在 Y3 段年薪在 S3 段的客户中,如果投保在 A 和 C 的同时,对于 B 类保险投保可信度是 80%。 3 年龄在 Y3 段的客户中,如果同时投保在 A、B 和 C 三种保险,那么此客户的年薪一定在 S3 段。 4 年薪在 S3 段的客户中,如果同时投保在 A、B 和 C 三种保险,那么此客户的年龄一定在 Y3 段。 ∧ ∧ ∧ ⇒ C confidence=4/4=100% ∧ ∧ ∧ ⇒ B confidence=4/5=80% ∧ ∧ ∧ ⇒ S3 confidence=4/4=100% ∧ ∧ ∧ ⇒ Y3 confidence=4/4=100% 4. 结束语 可以说,关联规则算法是适合应用于保险营销的数据挖掘技术,而且在一些其他相关行 业也被证明是可行的,因此如何把更多更合适的算法应用到各行业中,并且选用最优的就是 下一步工作。 -5-
http://www.paper.edu.cn 参考文献 [1] 风险的投保与理赔-保险法原理与实务 施青年 周关昌主编 复旦大学出版社 1996.11 [2] 《保险营销艺术:业绩快速提升》 李源源编 电子工业出版社 2003.1 [3] 数据挖掘 朱明编著。中国科学技术大学出版社。2002,5 [4] 王珊 等编著,数据仓库技术与联机分析处理。科学出版社。1998 Apriori Algorithm Application of Insurance Marketing College of electronics and Information Engineering, Liaoning Technical University, Yang Wei, Geng Liming, Li Yijie Huludao (125105) Abstract With rapid speed development of computer an Internet technology, as well as informatization of computer "spreads" broadly, Insurance business has already accumulated large amount of history information and material, and these data will still continue expanding. How to efficiently administer and utilize these business data is an important issue for insurance informatization. Based the assiciation rule data mining technology, we choose classical algorithms Apriori algorithm, By applying theory and the sample data to the Apriori algorithm, it could implement association rules’ support to insurance marketing. Keywords: Insurance Marketing Association Rules Apriori algorithm on -6-
分享到:
收藏