人工智能与大数据
陈清亮 教授
暨南大学计算机系
1
第五讲:关联规则(Association Rules)
“尿布与啤酒”的故事。
美国的沃尔玛超市对一年多的原始交易数据进行了详细的
分析,得到一个意外发现:与尿布一起被购买最多的商品
竟然是啤酒。借助于数据仓库和关联规则,商家发现了这
个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈
夫下班以后要为孩子买尿布,而30%~40%的丈夫在买完
尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后
,超市调整了货架的设置,把尿布和啤酒摆放在一起销售
,从而大大增加了销售额。
关联规则(Association Rules)反映一个事物与
其他事物之间的相互依存性和关联性。如果两个或
者多个事物之间存在一定的关联关系,那么,其中
一个事物就能够通过其他事物预测到。首先被
Agrawal, Imielinski and Swami在1993年的
SIGMOD会议上提出.
关联规则挖掘是数据挖掘中最活跃的研究方法之一
。典型的关联规则发现问题是对超市中的购物篮数
据(Market Basket)进行分析。通过发现顾客放
入购物篮中的不同商品之间的关系来分析顾客的购
买习惯。
70%购买了牛奶的顾客将倾向于同时购买面包。
某网上书店向用户推荐相关书籍。
在买了一台PC之后下一步会购买?
在保险业务方面,如果出现了不常见的索赔要求组
合,则可能为欺诈,需要作进一步的调查;
在医疗方面,可找出可能的治疗组合;
在银行方面,对顾客进行分析,可以推荐感兴趣的
服务等等。
什么是规则?
规则形如"如果…那么…(If…Then…)",前者为条件,后者
为结果。例如一个顾客,如果买了可乐,那么他也会购买
果汁。
如何来度量一个规则是否够好?有两个量,置信度
(Confidence)和支持度(Support)。假设有如下表的购买
记录。