1、(a)0.6*4 = 2.4,so the minimum support is 3
Part I
So ,frequent itemsets are :{{A},{B},{D},{A,B},{A,D},{B,D},{A,B,D}}
(b)
{a, b}{c}: confidence = 2/4=0.5
{c}{a, b}: confidence = 2/2=1
So ,confidence is not a symmetric measure.
(c)
2、
(a)
(b)
Apriori 算法: 3 次扫描数据库,并为了排除不满足情况产生了候补的子项,重复
的扫描。
FP-growth 算法:2 次扫描数据库,且不产生候补子项,在这方面要上优于 Apriori
算法,但需要借助 FP-tree 的搭建来产生频繁子项。
3、
(a)见下图
Question 1:
PartII
(1)Sort the rules by lift:
lift 的 5 个最高规则为:
1、tomato souce => pasta
2、coffee^milk => pasta
3、biscuits^paste => milk
4、water^pasta => milk
5、juices => milk
按照 lift 排序的前 5 个规则没有冗余规则
(2)Sort the rules by support:
support 的 5 个最高规则为:
1、milk
2、pasta => milk
3、water => milk
4、biscuits => milk
5、brioches => milk
从结果中可以看出规则 2,3,4,5 是冗余的,因为可以只通过销售 milk,而不需要
通过 pasta,water,biscuits 以及 brioches 来销售 milk,因此可以去掉。
(3)Sort the rules by confidence:
confidence 的 5 个最高规则为:
1、biscuits^pasta => milk
2、water^pasta => milk
3、juices => milk
4、tomato souce => paste
5、yoghurt => milk
按照 confidence 排序的前 5 个规则没有冗余规则
Question 2
1、
(a)当 Minimum records per child branch=56 时的混淆矩阵
(b)当 Minimum records per child branch=15 时的混淆矩阵
(c)当 Minimum records per child branch=10 时的混淆矩阵
2、在拓扑图中加入分析模块,得到各个树的正确率
Minimum records per child branch 56
正确率
错误率
71.5
28.5
15
84.5
15.5
10
84%
16%
根据正确率分析来看,当 Minimum records per child branch=15 时,正确率最高,因
此选择这个决策树模型。
3、首先构造要预测的数据文件 predict_data.txt,然后利用生成的决策树模型进行预测
预测结果如下所示:
其中最后一列$C-pep 即为预测的 RECOMMEND PEP 结果。