logo资料库

2020省赛C题.pdf

第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
资料共24页,剩余部分请下载后查看
2020年江苏省研究生数学建模科研创新实践大赛
题目:数据驱动的疫情特征描述、防疫效果度量及“重启”策略建模
摘 要:
数据驱动的疫情特征描述、防疫效果度量及“重启”策略建模
1引言
2问题一的建模与求解
2.1问题重述
2.2数据收集(潜伏期)
2.3模型建立(潜伏期)
2.4模型求解(潜伏期)
2.5问题假设(传染强度)
2.6模型建立(传染强度)
2.7模型求解(传染强度)
3问题二的建模与求解
2020 年江苏省研究生数学建模科研创新实践大赛 题目:数据驱动的疫情特征描述、防疫效果度量及“重启”策略建模 摘 要: 在不到 20 年的时间里,冠状病毒已经导致了 3 次大规模的流行病——2002 年的严重急性呼吸综合征(SARS)、2012 年的中东呼吸综合征(MERS)以及 去年 12 月湖北省武汉市出现的新型冠状病毒肺炎(COVID-19)。WHO 于 2020 年 1 月 30 日将 COVID-19 疫情列为国际关注的突发公共卫生事件,而 COVID-19 病毒的传播属性与以往传染病大不相同。为帮助全球防疫,能使用现有数据通过 模型获得病毒的传播属性与评价防控效果至关重要。 问题一:新冠病毒存在潜伏期长,潜伏期也可以传染,传染能力强,几乎所 有人都是易感人群等特性。本文对潜伏期与传染强度进行了预测,收集了疫情爆 发时期武汉的个例数据并分析了各个案例的可能潜伏期离散数据,通过双区间截 尾似然函数获得了病毒在这段时间的潜伏期分布,得到的数据与国际公认的潜伏 期时长吻合,主要分布在 4-6 天,占总分布的 60%以上。目前关于传染强度随时 间变化的研究主要是回溯和病体追踪,但这种方法局限于研究的病例个体差异, 如果研究的病例太少就不具有确定性,因此我们根据数据量较大的每日新增病例 等数据来建立模型和设计算法,获得了各国(由于不同国家的国情不同,传染强 度也各不相同)传播强度随时间变化的函数,结果显示,当潜伏期在 4-6 天时传 染强度最大,我们的研究结果也与国际相关传染强度研究得出的结论基本一致。 问题二:对各个国家的防疫效果进行评估,首先要建立各种评价指标,并确 定各个评价指标的标准值,但由于各个国家的人口总量,医疗水平,政府把控力 度等自身因素各不相同,我们不能单纯的利用国际平均水平作为标准值,因此需 要建立一个能够结合国际平均水准和国家自身因素的新冠病毒传播模型来得到 各国不同的标准值,再跟各国实际的疫情发展作比较。我们通过 WHO 提供的全 球各地区国家每日新增确诊、康复、死亡数据,结合各国实际国情建立了一个针 对新冠病毒特性修改的 SEIR 模型,引入了延迟差与潜伏期传染率等 13 个变量, 给出了 7 项疫情防控效果评价指标,通过模糊综合评价模型给出各国防控效果的 具体评分。结果显示,中国和韩国防控效果最好,评价模型得分为 0.9 以上;意 大利,法国和澳大利亚次之,评价模型得分为 0.6 左右;美国和印度防控效果很 差,得分为 0.2 左右。 问题三:由于疫情导致的国家各种防控政策会造成巨额的经济损失,因此各 国想要尽早“重启”,但是过早重启又会造成疫情的二次爆发。对此,我们建立了 1
一个疫情重启经济损失函数模型,综合考虑了不同时间重启所带来的经济损失和 感染人数,死亡人数等对国家的影响,结合模拟得到的二次爆发临界日期,最终 计算出意大利疫情重启经济损失函数,结果显示,意大利在 2020 年 9 月 3 日前 后重启总体损失最小。进一步我们考虑到伦巴第作为意大利疫情重灾区,其确诊 人数占全国 60%以上,据此我们给出了考虑城市因素的疫情重启经济损失函数曲 线,结果显示,如果考虑城市因素,意大利在 2020 年 8 月 15 日前后重启总体损 失最小。此外,不同的行业在疫情中也会有截然不同的境况,例如电影院网吧等, 显然需要严加控制,而互联网时代更多的行业不需要人与人的现实接触,因此我 们又给出了考虑行业因素的意大利疫情重启经济损失函数曲线,结果显示,如果 考虑行业因素,意大利在 2020 年 8 月 13 日前后重启总体损失最小。综上所述, 我们建议意大利综合考虑城市和行业因素,在 2020 年 8 月中上旬“重启”。 关键字:新冠病毒,潜伏期,传染强度,SEIR 模型,模糊综合评价模型,疫情 重启经济损失函数 2
数据驱动的疫情特征描述、防疫效果度量及“重启”策略建 模 1 引言 新型冠状病毒(COVID-19,以下简称新冠病毒)在全球迅速扩散,对世界 人民的生命安全造成了巨大的威胁。世界卫生组织(WHO)在 2020 年 3 月 11 日宣布新冠病毒已构成全球性的大流行,截至 2020 年 7 月 15 日,全世界确诊病 例达到 13150645 例,造成 574464 人死亡。 最初,这些感染被认为是由人畜共患病(动物到人)传播引起的;然而,年 初公布的数据和发病率指数增长表明,人类迁移促进了人与人之间的二次传播, 在世界其他地区发现了许多病例。因为这些迁移事件将感染风险限制在个人前往 可能发生接触区域的时间,武汉这个最初的重灾区以外的地理扩展为研究新冠病 毒感染提供了一个机会。 中国在这次疫情中扮演了先驱者的角色,并且成功的在短时间内控制住疫情 的爆发。而美国作为人口经济大国,从政府到人民都没有端正对待疫情的态度, 导致目前国内疫情仍处于爆发阶段,不仅危害到了本国国民的生命安全和经济发 展,更威胁着防控工作进展顺利的国家下一阶段的重启工作。所以针对不同国家, 需要一个防控效果度量标准,来引导该国对待疫情的态度,进一步通过研究,给 出疫情后重启经济的策略建议。 综上,对新冠疫情特征描述,各国防疫效果度量以及各国“重启”策略是中 国以及世界各国亟待解决的问题。 与 SARS[1]和埃博拉病毒[2]相比,新冠病毒的病毒携带者在潜伏期也具有传 染性,这与传统的 SEIR 等传染病模型[3]冲突。并且此次疫情爆发时间恰逢中国 春节前后,春节作为全球最大的人类迁徙活动的时期,也让该次疫情的处理成为 了人类发展史上史无前例的难题。全球交通的发达也使得病毒可以随时跨地域传 播。 2 问题一的建模与求解 2.1 问题重述 众所周知,今天的确诊者是在之前被感染的,但一般不太可能是昨天。人们 在疫情期间,经常谈论潜伏期,以及处于潜伏期的人(包括无症状感染者)是否 具有传染性。现在关于新冠病毒的潜伏期是通过对感染者的跟踪和回溯得到的大 致时间,有较大的不确定性。显然,潜伏期是随机的,因人而异。另外,我们有 理由相信受到感染者在发病进程的不同阶段传染强度不同。如果能明确传染强度 随时间变化的函数,将有利于政策制定者更合理的安排防疫举措。请根据 WHO 提供的各国确诊数据等,建立估计潜伏期的分布和传染强度随时间变化的模型, 并估计新冠病毒的平均潜伏时间。请给出模型及求解算法的详细设计。 3
2.2 数据收集(潜伏期) 目前疫情在我国有所缓解,因此问题一数据收集的时间设为疫情爆发时期(1 月 1 日~1 月 31 日)。我们根据政府机构的官方报告以及武汉内外病例的报告, 检索了武汉以外地区确诊的新冠病毒感染和诊断病例的信息。 具体来说,我们收集了每一个病例中病人的接触日期(出入武汉的日期/与 武汉居民或已知感染者密切接触的日期)、发病日期。这些病例既包括来自其他 地方前往武汉的居民,也包括在武汉生活、工作或学习的个人,但这些人在武汉 以外被诊断出来,并被发现感染地点的政府报告。因此,我们通过不包括武汉居 民和包括武汉居民两个角度来估计潜伏期。前者在确定接触时间间隔方面可能更 精确,但后者的样本量更大, 2.3 模型建立(潜伏期) T  我们设 E 和 S 为给定个体接触感染者和发病的日期,真正的潜伏期可以表示 , E 和 S 是落在有限区间内的数据,因此一组数据可以表示为 ES  为  , , , ,其中,下标 L 和 R 表示可能接触感染者和发病日期的左右 X SSEE L L 边界,当观测数据由一个围绕 E 的区间和另一个围绕 S 的区间组成时,称为双区 间截尾数据。 R R 我们使用双区间截尾似然函数[4]来估计这些区间的参数值:   L  ; D g  i  E . iL E iR S . iR . S . iL    sfeg dsde e  (2-1) 其中,D 代表病例i 的集合,  g 是均匀分布后的接触日期的概率密度函数,   是独立于  g 的潜伏期的概率密度函数。 f 为了解决由于疫情持续增长导致的数据集选择偏差(即潜伏期较短的病例更 有可能包含在数据集中),我们用了以下公式进行了右截断:   s , ee  f    sf e    exp r ru   tF   exp 1 ru    duue  (2-2) et   0 其中 r 代表指数增长率,(大致为 0.14)[1],t 为最近的观察时间(1 月 31 日)。  F 为   f 的累计密度函数。 2.4 模型求解(潜伏期) 在这上述两种情况下,我们使用贝叶斯方法来推断参数估计,并获了可信区 间。我们用 R 语言处理数据,并计算极大似然估计,马尔科夫链蒙特卡洛模拟 使用了 R 语言中的 Stan 模型[5]。 无论是排除还是包括武汉居民,对数正态分布都与所提供的数据拟合的不 错。排除武汉居民时,平均潜伏期估计为 5 天,95%置信区间为(4.2,6.0)。 包括武汉居民时,平均潜伏期估计为 5.6 天,95%置信区间为(5.0,6.3)。在此 4
基础上对数据进行右截断,得到排除武汉居民时,平均潜伏期为 5.6 天,95%置 信区间为(4.4,7.4)。具体运算结果如表 1,表 2 所示: 表 2.1 2020 年 1 月报告的新冠病毒病例的潜伏期(适用于对数正态分布) 包括武汉居民潜伏期(天) 不包括武汉居民潜伏期(天) 病例数量 均值 标准差 中位数 95% 52 5.0(4.2,6.0) 3.0(2.1,4.5) 4.3(3.5,5.1) 158 5.6(5.0,6.3) 2.8(2.8,3.6) 5.0(4.4,5.6) 10.6(8.5,14.1) 10.8(9.3,12.9) 表 2.2 2020 年 1 月报告的新冠病毒病例的右截断潜伏期(适用于对数正态分 布) 包括武汉居民潜伏期(天) 病例数量 均值 标准差 中位数 95% 52 5.6(4.4,7.4) 3.9(2.4,6.9) 4.6(3.7,5.7) 12.3(9.1,19.8) 以下是潜伏期累积分布的一个可视化结果(适用于对数正态分布): 图 2.1 排除武汉居民的潜伏期分布 图 2.2 包括武汉居民的潜伏期 5
分布 图 2.3 包括武汉居民的潜伏期分布(右截断) 最终结果显示,5 天为我们对于新冠病毒平均潜伏时间的估值。同时也可以 从实验结果中发现,95%的潜伏期集中在(10,14)的区间中,这也表明现有的 14 天隔离政策能够很大程度抑制疫情的传播。 2.5 问题假设(传染强度) 1.人群个体没有明显差异,易感者与感染者的个体在人群中混合是均匀的 3.易感者感病的机会和他接触病者的机会成正比 4.数据使用开始传染的前 75 天,所以视疾病传染率在短时间内为常数 5.不考虑出生、死亡过程和人群的迁入迁出 6.忽略未接受治疗而自愈的可能 7.潜伏者发病后自行观察两天后去医院确诊 2.6 模型建立(传染强度) min I 141  75  i 0 i  1 2 ( YR  i i ) 2 .. Rts i  j i  i  *  iPE 14  i j j  15,14  75  (2-3) E i i   j i  14    IE  i j  i  14     iP k  1 j  k 15,14  75 其中 iP 为潜伏期为i 天的概率, iI 为潜伏者得病后第i 天的传染强度, iE 为第i 天 0 E , iR 为预测的第i 天会被检测确认新冠的人数, iY 的潜伏期总人数,我们设 为第i 天实际检测确认新冠的人数, 0i 为数据集起始天数。 1 6
这里将感染的整体过程分为以下几个过程的集合:易感者收到潜伏者和发病 未隔离者的感染而成为潜伏者,潜伏者在度过潜伏期后成为发病感梁者,发病感 染者在自我观察一段时间后选择去医院确诊进而成为隔离者,隔离之后就不再会 传染其他人。这样每天新增的被感染人数(包括在潜伏期的)为所有还没有接受 隔离的患者乘上他染病天数对应的传染强度,然而已知的数据是不可能统计到所 有潜在患者人数的,所以在计算得出潜在患者人数之后还需要乘上上一小节的潜 伏期频度得出模型所预测的每日被确诊人数,最后使用均方误差来衡量模型的符 合程度。 2.7 模型求解(传染强度) 使用湖北省、美国、意大利、法国、英国前 75 天的每日确诊总人数数据, 进行最小二乘拟合,将模型进行积分获得多项式每一项对应的 I 值表达式后进行 求解。结果如下: 图 2-4 各国或地区传染强度折线图 我们将平均传染强度进行使用 matlab 工具箱的 cftool 进行指数拟合,结果如 下: 通过图 5 我们可以得到传染强度随时间变化的曲线。可以发现在患病的 14 图 2-5 平均传染强度拟合曲线 7
天中,前期的传染强度上涨很快,在大概 5 天时达到峰值。在达到峰值后,病毒 的传染强度会随着时间递减,根据 SARS 病毒的研究[6]结合和目前国内外对新冠 病毒病毒的临床研究[7][8],我们有理由相信 14 天后病毒的传染强度将在短时间内 接近 0。 3 问题二的建模与求解 3.1 问题重述 传染病的防治原则:控制传染源;切断传播途径;保护易感人群。控制传染 源首先要确定传染源,这就需要检测。而实现切断传播途径和保护易感人群的简 便方法就是戴口罩和保持社交距离,这也是现在各国(地区)防疫的通行做法。 受技术手段和经济条件的制约,各国(地区)的检测程度有较大的差异。而戴口 罩和保持社交距离的防疫举措在世界各地执行的情况也不尽相同。这就造成了各 国疫情的传播趋势千差万别。请根据疫情传播趋势数据建立数学模型度量各国防 疫效果。请收集美国、意大利、法国、澳大利亚、韩国、印度等国家的确诊数据 集,利用所建立的防疫效果模型计算并对比上述国家的防疫效果,分析造成防疫 效果差异的原因。 3.2 模型建立 如果运用国际疫情的平均数据对各个国家的防疫效果进行度量,人口总量, 发达程度,政府把控力度等国家自身因素的影响不能够有所体现。因此,我们需 要建立一个能够结合国际平均水准和国家自身因素的新冠病毒传播模型,来得到 各国的疫情预测数据,然后结合各国实际疫情数据,根据国内外研究成果设定评 价指标,建立评价模型,最后通过新闻等媒体渠道了解各国实际情况,分析造成 防疫效果差异的原因。 通过国内外对传染病防控效果的评价机制研究,结合新冠病毒自身的特点, 我们确定了以下 7 个指标来度量各国的防控效果:治愈率(总治愈人数/总感染 人数)、死亡率(总死亡人数/总感染人数)、感染率(总感染人数/国家总人数)、 新增稳定性(实际新增感染人数方程)、二次爆发(是否存在二次爆发)、持续 时间偏离(实际和预测模型的疫情开始到基本结束总时间之差)、每日新增偏离 (实际和预测模型的平均每日新增病例之差)。 新冠病毒作为一种传染性的病毒,首先考虑传统的传染病模型 SEIR。SEIR 相较于其他几种常见的传染病模型(SI,SIR,SIRS)[9][10][11],其主要引入了潜伏期 的概念,与问题一研究的潜伏期相同。该模型能够模拟传染病的传播途径:易感 者--潜伏者--感染者--康复者,通过各环节设置的转化率,治愈率等参数对传染病 的传播规模和时间进行预测。 S 类:易感染者(Susceptible),指未得病者,但缺乏免疫力,一旦与感染 者基础,则可能受到感染,受感染的概率由相应的传染概率决定。 E 类:潜伏者(Exposed),指接触过感染者,自身已经受感染,但暂无能 力传染给给与其接触的 S 类成员,且本身并未被确诊。 I 类:感染者(Infective),指染上传染病的人,并且会传染给接触的 S 类 成员,将其变为 E 类或 I 类成员,但本身已被确诊。 8
分享到:
收藏