““华华为为杯杯””第第十十五五届届中中国国研研究究生生
数数学学建建模模竞竞赛赛
学 校
上海海事大学
参赛队号
18102540084
队员姓名
1.吴建
2.岳嘉伟
3.郭钰君
““华华为为杯杯””第第十十五五届届中中国国研研究究生生
数数学学建建模模竞竞赛赛
题 目 对恐怖袭击事件记录数据的量化分析
摘 要:
本文通过对恐怖袭击事件记录数据的量化分析,对不同恐怖袭击事件的危害
程度借助数学建模方法建立基于数据分析的量化分级模型,对事件危害程度从高
到低分为5级;并对未确立作案者的恐怖袭击事件从时间、空间、受害者类型、
武器类型等多个方面寻找可能的作案者,按危害程度从大到小排出了前5个。研
究恐怖袭击事件发生的主要原因、时空特性、蔓延特性、级别分布的规律,预测
和研判了未来一年南亚地区的反恐态势;最后分析了恐怖分子的活动规律以及中
国的恐怖袭击情况,给出了反恐建议。
针对问题一,对恐怖袭击事件的危害程度建立量化分级模型,将近二十年来
恐怖袭击事件的危害程度从高到低分为一至五级。首先对于给定数据集进行预处
理和清洗,原始数据中114184个样本,135个变量,删除缺失度超过85%的变量
后剩余60个变量,并删除缺失比例超过50%的样本。具体使用的变量请查阅附件
“问题一_变量纳排标准”。对纳入模型的变量中的数值变量进行标准化、分类变
量进行哑编码。使用主成分分析方法(PCA)计算每个变量的权重,并计算出每
个事件的危害系数得分F值。对F值进行K-Means聚类,聚类结果包含5个簇,每
个簇的区间按从大到小排序,依次标记为等级一至五级,并给出问题一中表1的
典型事件危害等级,以及近二十年的危害程度最高的十大恐怖袭击事件。
针对问题二,对多起未知犯罪集团的恐怖袭击事件确定作案者,建立数学模
型。将可能是同一恐怖组织或个人在不同时间、不同地点多次作案的若干案件归
为一类。先从原始数据中提取出2015~2016年的数据,删除缺失比例超过85%的
变量,以及删除缺失比例超过50%的样本。由于犯罪集团名称变量中取值未知的
比例达到43.3%,因此将该变量取值未知和取值缺失的样本进行删除。对剩余样
本中的数值变量两两计算Pearson相关系数矩阵,分类变量与财产损失程度进行
卡方检验,筛掉与死亡总数、财产损失程度不相关的变量。具体的变量纳排标准
请查阅附件“问题二_变量纳排标准”,同样对纳入模型的数值变量进行标准化,
分类变量进行哑编码。将问题二中表2所列的10个典型事件加入样本数据。使用
问题一的危害程度得分F值,根据每个事件的F值计算每个恐怖组织或个人的危
害性,从高到低选取前5个组织或个人,标记为1号-5号。使用因子分析模型对数
据降维,对降维之后的样本数据使用基于密度的聚类模型(DBSCAN),将数据
聚成19个簇,根据聚类结果找出10个典型事件所在的簇,分析表2典型事件所处
的簇中的恐怖组织和个人的危害程度,危害程度越高,嫌疑度越大。
1
针对问题三,研究近三年的恐怖袭击事件发生的主要原因、时空特性、蔓延
特性、级别分布等规律,进而分析了南亚地区的反恐态势。首先对事件发生的动
机(motive)文本信息借助自然语言处理的工具(nltk)进行词频向量统计,按
词频大小找出主要原因。对南亚地区2015年~2017年按月划分的恐怖袭击次数建
立了ARIMA时间序列模型。并对南亚地区2018年1月~12月的恐怖袭击发生次数
进行了预测。在空间特性上,采用了Moran指数,来测试恐袭的次数是否和空间
信息相关。针对蔓延特性分别从两个方面进行建模。一方面是在空间上的蔓延特
性,用空间密度来反映恐袭的趋势。另一方面是时间上的蔓延特性,类比城市蔓
延指数建立模型。最后对国家的恐怖袭击威胁单独建立模型。
针对问题四,使用Aprior关联规则挖掘算法,分析原始数据,挖掘了恐怖组
织的活动规律、包括恐怖组织与所使用武器之间的关系、恐怖组织与地区之间的
关系、恐怖组织与受害者类型之间的关系,并对中国的恐怖袭击活动进行了分析,
以及提出了相关的建议。随后对中国内部的恐怖主义事件进行了多方面的统计,
统计包括伤亡,次数,攻击方式,攻击目标。全面了解了我国近20年的恐怖威胁
和反恐态势的状况,并对反恐斗争提出了相关建议。
关键词:恐怖袭击;量化分级;基于密度聚类;ARIMA时间序列模型;关联规则
挖掘;
2
目录
一、问题重述 ............................................................................................................... 4
1.1 问题背景 ......................................................................................................... 4
1.2 需要解决的问题 ............................................................................................. 4
二、问题分析 ............................................................................................................... 6
2.1 问题一分析 ..................................................................................................... 6
2.2 问题二分析 ..................................................................................................... 6
2.3 问题三分析 ..................................................................................................... 6
2.4 问题四分析 ..................................................................................................... 6
三、模型假设 ............................................................................................................... 7
四、符号说明 ............................................................................................................... 7
五、问题一模型建立与求解 ..................................................................................... 10
5.1 问题一求解思路 ........................................................................................... 10
5.2 数据预处理 ................................................................................................... 10
5.3 模型建立 ....................................................................................................... 11
5.5 模型求解 ....................................................................................................... 17
5.5 模型评价 ....................................................................................................... 18
六、问题二模型建立与求解 ..................................................................................... 18
6.1 问题二求解思路 ........................................................................................... 18
6.1 数据预处理 ................................................................................................... 19
6.2 模型建立 ....................................................................................................... 20
6.3 模型求解 ....................................................................................................... 27
6.4 模型评价 ....................................................................................................... 28
七、问题三模型建立与求解 ..................................................................................... 28
7.1 模型建立 ....................................................................................................... 28
7.2 模型求解 ....................................................................................................... 37
7.3 模型评价 ....................................................................................................... 38
八、问题四模型建立与求解 ..................................................................................... 38
8.1 数据预处理 ................................................................................................... 38
8.2 模型建立 ....................................................................................................... 38
8.3 模型求解 ....................................................................................................... 41
8.4 模型评价 ....................................................................................................... 42
九、总结 ..................................................................................................................... 42
十、参考文献 ............................................................................................................. 42
十一、附录 ................................................................................................................. 43
3
一、问题重述
1.1 问题背景
恐怖袭击是指极端分子或组织人为制造的、针对但不仅限于平民及民用设施
的、不符合国际道义的攻击行为,它不仅具有极大的杀伤性与破坏力,能直接造
成巨大的人员伤亡和财产损失,而且还给人们带来巨大的心理压力,造成社会一
定程度的动荡不安,妨碍正常的工作与生活秩序,进而极大地阻碍经济的发展。
恐怖主义是人类的共同威胁,打击恐怖主义是每个国家应该承担的责任。对恐怖
袭击事件相关数据的深入分析有助于加深人们对恐怖主义的认识,为反恐防恐提
供有价值的信息支持。
1.2 需要解决的问题
任务1 依据危害性对恐怖袭击事件分级
对灾难性事件比如地震、交通事故、气象灾害等等进行分级是社会管理中的
重要工作。通常的分级一般采用主观方法,由权威组织或部门选择若干个主要指
标,强制规定分级标准,如我国《道路交通事故处理办法》第六条规定的交通事
故等级划分标准,主要按照人员伤亡和经济损失程度划分。
但恐怖袭击事件的危害性不仅取决于人员伤亡和经济损失这两个方面,还与
发生的时机、地域、针对的对象等等诸多因素有关,因而采用上述分级方法难以
形成统一标准。请你们依据附件1以及其它有关信息,结合现代信息处理技术,
借助数学建模方法建立基于数据分析的量化分级模型,将附件1给出的事件按危
害程度从高到低分为一至五级,列出近二十年来危害程度最高的十大恐怖袭击事
件,并给出表1中事件的分级。
表1 典型事件危害级别
事件编号
危害级别
200108110012
200511180002
200901170021
201402110015
201405010071
201411070002
201412160041
201508010015
201705080012
任务2 依据事件特征发现恐怖袭击事件制造者
4
附件1中有多起恐怖袭击事件尚未确定作案者。如果将可能是同一个恐怖组
织或个人在不同时间、不同地点多次作案的若干案件串联起来统一组织侦査,有
助于提高破案效率,有利于尽早发现新生或者隐藏的恐怖分子。请你们针对在
2015、2016年度发生的、尚未有组织或个人宣称负责的恐怖袭击事件,运用数学
建模方法寻找上述可能性,即将可能是同一个恐怖组织或个人在不同时间、不同
地点多次作案的若干案件归为一类,对应的未知作案组织或个人标记不同的代
号,并按该组织或个人的危害性从大到小选出其中的前5个,记为1号-5号。再对
表2列出的恐袭事件,按嫌疑程度对5个嫌疑人排序,并将结果填入下表(表中样
例的意思是:对事件编号为XX的事件,3号的嫌疑最大,其次是4号,最后是5
号),如果认为某嫌疑人关系不大,也可以保留空格。
表2 恐怖分子关于典型事件的嫌疑度
样例XX
1号嫌疑人 2号嫌疑人 3号嫌疑人 4号嫌疑人 5号嫌疑人
4
3
1
2
5
201701090031
201702210037
201703120023
201705050009
201705050010
201707010028
201707020006
201708110018
201711010006
201712010003
任务3 对未来反恐态势的分析
对未来反恐态势的分析评估有助于提高反恐斗争的针对性和效率。请你们依
据附件1并结合因特网上的有关信息,建立适当的数学模型,研究近三年来恐怖
袭击事件发生的主要原因、时空特性、蔓延特性、级别分布等规律,进而分析研
判下一年全球或某些重点地区的反恐态势,用图/表给出你们的研究结果,提出
你们对反恐斗争的见解和建议。
任务4 数据的进一步利用
你们认为通过数学建模还可以发挥附件1数据的哪些作用?给出你们的模型
和方法。
5
二、问题分析
2.1 问题一分析
恐怖袭击事件的危害性不仅取决于人员伤亡和经济损失两方面,还与发生的
时机、地域、针对的对象等诸多因素有关,但主要因素还是人员伤亡和经济损失,
因此对恐怖事件危害程度的分级首要任务是确定分级要素。附件1中包含135个恐
怖事件的特征,在建立量化分级模型之前,先进行数据预处理,去掉缺失度较高
的变量和文本类型变量,利用卡方分布和
相关性系数检验变量与伤亡人
数和经济损失之间的相关性,去掉相关性极低的变量,将数据转换成适合做数据
挖掘的格式。使用主成分分析法对数据进行降维处理,找出影响恐怖事件危险等
级的主要因素。通过主成分分析法确定每一个影响因素的权值,加权求和得到每
一个恐怖事件的恐怖指数,再根据
聚类算法,将恐怖事件的危险程度
聚为五类,从高到低分为一至五级。
2.2 问题二分析
针对尚未确定作案者的恐怖袭击事件,要想找到嫌疑组织和个人,首先要确
定每一个恐怖袭击事件之间的相关性,从时间特性,空间特性,针对的目标对象
类型,武器类型以及是否是连续作案等因素,挖掘样本事件之间的内在联系。将
问题二中要求标记嫌疑人的表2的事件添加到样本事件中,由于样本事件的特征
变量较多,不利于数据的挖掘,因此需要对样本进行降维,采用因子分析法,根
据变量相关性分析找出几个公共因子,再利用
密度聚类算法,依据样
本的公共因子的分布紧密程度,对样本事件进行聚类。聚类得到的结果就是在某
一些特性上十分相似的案件的集合,分析表2事件所处的簇中的恐怖组织和个人
的危害程度,危害程度越高,嫌疑度越大。
2.3 问题三分析
为了实现对未来反恐态势的分析评估,我们需要建立模型,研究近三年恐怖
袭击事件发生的主要原因、时空特性、蔓延特性、级别分布等规律,进而分析下
一年的全球或某些重点地区的反恐态势。针对发现恐怖袭击事件发生的主要原
因,我们选择对每个事件的动机(motive)进行文本数据挖掘,借助公共语料库,
使用TF(词频指数)模型,统计文本数据中的关键字,根据关键字确定恐怖袭
击事件的主要原因。针对时空特征,我们从时间和空间两方面进行分析,对于时
间特性,我们使用ARIMA时间序列分析模型对时间特性进行建模,发现恐怖袭
击事件在时间序列上的规律,从而对下一年的反恐态势进行时间上的预测。针对
对用空间特性,我们借助Moran指数来判断恐怖袭击的频数和空间的关系。针对
蔓延指数,我们分别建立时间蔓延指数的模型和空间蔓延指数的模型,分析三年
来恐怖袭击的蔓延情况。针对级别分布规律,我们通过问题一得出的F值(恐怖
袭击的危险程度),和恐怖袭击在某些国家发生的频度建立数学模型,用变异系
数法确定频度权重,最后通过模型得到级别分布。
2.4 问题四分析
6
pearsonKmeansDBSCAN
此问题是完全的开放问题,从研究 GTD 所包含的属性以及网络上获取的信
息,决定从两方面分析:第一方面:对我国的信息的统计与挖掘,找出一些对我
国有作用的信息,并评价这些信息是否有作用。第二方面:用 Apriori 算法对 GTD
中的分类变量进行关联项级的挖掘,并分析挖掘出来的信息。对恐怖组织的行为
习惯进行关联规则挖掘,并且挖掘过程要有时间概念,这样更容易看到随着时间
的变化,恐怖组织的行为习惯的变化。
三、模型假设
总体假设:
(1)不考虑缺失比例超多 85%的变量
(2)不考虑缺失比例超过 50%的样本
针对问题一的假设:
(1)不考虑文本字段信息
(2)不考虑武器类型的子类型、攻击类型的子类型
针对问题二的假设:
(1)不考虑文本字段信息,忽略缺失文本信息对建模的影响
(2)不考虑犯罪集团名称未知的样本
针对问题三的假设:
(1)词频统计时忽略停用词的影响
(2)不考虑南亚地区未来一年恐怖袭击活动发生急剧变化
四、符号说明
符号
意义
原始变量数据
标准化后的数据
标准化矩阵
相关系数矩阵
7
ixiXYR