logo资料库

2016年国赛数学建模B题.pdf

第1页 / 共36页
第2页 / 共36页
第3页 / 共36页
第4页 / 共36页
第5页 / 共36页
第6页 / 共36页
第7页 / 共36页
第8页 / 共36页
资料共36页,剩余部分请下载后查看
“拍照赚钱”的任务定价 摘要 “拍照赚钱”是移动互联网新兴的一种自助式服务模式,任务定价是其核心内容, 为寻求其最优的定价方案,本文通过聚类分析、多元线性回归、遗传算法和整合剔除算 法等模型就其定价方案进行研究,建立模型并优化,最终得到一个较优的定价方案。 对于问题一,为研究附件一的任务定价规律,本模型首先通过聚类分析将任务的地 址分为 23 类,选取任务点到其所属类别的中心点的距离、该所属类别中心点到全局中 心点的距离、以该任务点一定半径范围内的会员人数及其平均信誉值作为影响定价的指 标,利用多元线性回归方程拟合出定价函数式,其中第一类数据的定价函数模型为: Y=ε+0.969956+0.0ққ0೘қ+0.5533+0.0035қ 根据得出的定价模型与附件一中实际任务定价做残差分析,容易看出模型与实际定 价差异不大,则该定价模型可以作为附件一中的定价规律,因此任务未完成的主要原因 有:任务群离全局中心区域点过远、任务群密集程度低、围绕该任务点的会员数量过少, 围绕周围的会员信誉值过低。 对于问题二,在模型一的基础上提出一个新的任务定价方案使区域任务完成率提高。 本文引入 “区域最优价格”的概念,在设定任务完成率分别达到 85%、80%、75%和 70% 的情况下,利用遗传算法修改参数求得最优解,进而得到一个最优参数集,使区域定价 平均值无限接近对应类别的区域最优价格,对比不同任务完全率的优化情况,可以发现 当任务完成率为 75%时为最优解。其中第一类数据优化函数式为: 对于问题三,为研究打包任务点对方案的影响,在打包过程中,原模型四个变量指 标会随集中位置的任务打包而改变,本题通过对众包模式的研究提出“整合剔除法”优 化打包后的定价模型,同时对打包后的价格进行合理加权,以第一类数据为例,打包后 Y=ε+.03೘қ+0.5393−0.5573+0.030೘қ 的函数模型为:=0.937+0.3757−0.6033−0.039қ+ 与打包前对比,两两距离较小的点进行打包可以 将均值价格与任务完成率 w j  0 * w j j Y Y 0 j 提高各个类的任务完成率。 对于问题四,为求新任务点的定价方案,本文根据模型一将附件三中新项目地址分 到 23 类区域中,求出四个因素指标的具体值,并基于模型三的打包模式进行定价。 关键词:众包模式 整合剔除算法 聚类分析 多元线性回归 遗传算法 区域中心 1
一、问题重述 1.1 问题背景 “拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载 APP,注册成为 APP 的会员,然后从 APP 上领取需要拍照的任务(比如上超市去检查某种商品的上架情况), 赚取 APP 对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提 供各种商业检查和信息搜集的途径,相比传统的市场调查方式可以大大节省调查成本, 而且有效地保证了调查数据真实性,缩短了调查的周期。因此 APP 成为该平台运行的核 心,而 APP 中的对拍照任务定价又是其核心要素。如果定价太低,会导致任务无人问津; 如果定价过高,商家获取信息的成本也会过高,导致 APP 上的企业商家注册减少。因此 模型需要考虑多层因素影响进而制定一个合理的定价方案。 1.2 提出问题 1.研究附件一中项目的任务定价规律,分析任务未完成的原因。 2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。 3. 实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考 虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最 终的任务完成情况又有什么影响? 4. 对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。 二、问题分析 2.1 概论 当前的中国,劳务市场非常庞大。其中对于调研业而言,尤其是快消行业对此需求 量大,但这个行业一直面临低效、陈旧、落后的局面。传统的调研业,需要众多非专业 的临时性劳动力,拥有规模大、人员庞杂、管理难、费用高等特点。目前通过新兴的移 动端“拍照赚钱”APP,以众包的模式,将庞杂的调研业执行链条转化到移动平台上实施, 让全国上百万众包人员具备访问员的素质,直接在移动平台上接到任务,执行并反馈, 从而使调研业实现高效率、低成本、规模广的飞跃。随着“共享经济”的迅速发展,人 力资源的共享也逐渐普及,众包平台的规模日益扩大,因此研究众包模式下的任务定价 具有深远的意义。 任务定价问题是运营的核心要素,要解决这一问题,需要分析处理会员信息数据、 项目的任务数据,找出任务的位置、定价和完成情况与会员的位置、信誉值、开始预订 时间和预订限额之间的关系。 2.2 问题一 问题一针对原项目的定价规律及未完成原因,需要找出合适的影响指标。通过对附 件一与附件二数据的分析处理,我们将任务的地址进行聚类分析为 23 类,并选取任务 点到其所属类别的中心点的距离、所属类别中心点到全局中心点的距离、以该任务点一 定半径范围内的会员人数及其平均信誉度作为影响定价的指标[1],利用多元线性回归拟 合出各类任务的定价函数关系,得到其定价的规律[2]。将拟合出的定价与实际定价作对 比,通过残差分析,若两者的残差较小,则相关的四个因素即为未完成任务的原因。 2.3 问题二 问题二的目的是提出一个更好的方案使得区域任务完成率提高,优化方案求解主要 2
分为三个步骤:首先引入一个“区域最优价格”的概念,即在区域任务完成率受限的情 况下,根据区域任务完成率的定义,当区域完成率达到最大时所求出的价格[3];然后通 过遗传算法优化第一问得到的参数来使得到的区域定价平均值无限接近对应类别的区 域最优价格,得到一个较优的定价方案。 2.4 问题三 问题三中对于集中发布的任务进行打包,使问题二中建立的各个类别中任务点数量 变少,打包后形成的大任务点到其所属的类别中心域的距离与原来多个点相比发生了改 变,围绕在这些大任务点周围的会员数量和会员的信誉值也随之改变。实际上,打包后 任务总价格相对它们原来单个任务价格之和偏低,但对会员的吸引力度不会有太大变化, 因此应该做一个关于打包数量加权。本问讨论打包对定价模型四个因素指标及其相应多 元回归方程的影响。 2.5 问题四 问题四是对本文模型的应用,因为本题的模型是以 23 大类为基础,所以首先根据 各点到各类中心点距离的远近,把附件三中 2066 组经纬度分到 23 类中,然后根据数据 求出四个指标的具体值,再由模型三所求得各类别的进行带入求解即可得到结果。 三、模型假设 1.假设会员信息与任务信息准确无误; 2.假设本文中出现的会员倾向于做出使自己利益最大化的行为,进行的选择是合理、正 常的; 3.假设旧项目与新项目下会员人数没有过大变化,数据信息全部适用; 4.其他外界因素如:会员的活跃度、天气环境因素,任务难易程度等对该定价系统的影 响归为随机变量常数ε,且其符合(0,)的正态分布。 四、符号说明 符号 Y ε M G pc pm 符号说明 全局中心与类中心的距离 类中心与某一任务点的距离 类中心周围会员的人数 类中心周围会员的平均信誉值 任务的定价 定价关系下随机变量 种群大小 最大代数 交叉率 变异率 任务完成率 残差 3
五、模型的建立和求解 5.1 问题一 5.1.1 问题分析 通过研究附件的任务、会员信息数据,可以得到四个因素指标。不同任务点具有不 同的经纬度,即空间地理位置不同,因此可以将地理位置作为一个考虑指标分析不同任 务的定价规律;然后考虑实际上一个任务定价还可能与周边的注册该 APP 会员的数量有 关,该任务点的周边会员数量越多,则完成该任务的可能性也越大,有一定的竞争力, 因此该任务的定价也会相对较低。同时再考虑这些围绕同任务点的会员,分析他们的信 誉值,因为信誉值的高低会影响其做任务的预定限额、预定时间,从而导致能够去完成 该任务的实际会员人数的不同,最后考虑一个全局的中心域,比较不同的密集任务群离 这个全局中心域的距离,来影响其定价[4]。 综上所述,我们首先将附件一中的任务点进行聚类分析,将数据共分成 23 类,并 (1)计算任务点构成的经纬度矩阵两两对象的绝对值距离 找出所有任务点的全局中心域,23 类任务点每类的类中心点,通过对附件数据的处理, 决定将上述四个变量作为研究因素指标拟合定价规律方程,下面建立模型详细说明。 5.1.2 建立模型 댠䗂 :按任务点经纬度的空间地理位置进行聚类分析。 设表示第i 个任务点,其对应的经纬度为(,所以两两任务点之间的空间距离为: − (2)用类平均法度量类与类之间的距离,从而进行分类,其中、指的是不同 d = = 的类别: (1.1) GGD 2 ( , 1 )  1 nn 21   , ( i xxd ) j (1.2) Gx  1 i Gx  2 j (3)将其分成与附件一价格相对应的 23 类别,其等级聚类树如下图所示 0.8 0.7 0.6 0.5 0.4 0.3 0.2 26 27 11 14 25 8 10 13 7 9 24 30 15 16 17 18 19 28 1 2 4 5 21 29 3 6 12 22 20 23 图 1 等级聚类树图 4
其余按任务点的序号分类显示结果见附录。 댠䗂 :计算各任务点到其所属类别中心域点的位置距离,同时计算各个类别中心域点 到全局的中心的距离[5]。 (1)求出各个类别对应得中心域点,全局的中心域点 类别的中心域点:采用整个类别的经纬度的平均值作为其中心域点的经纬度坐标值。 全局中心域点:则采用全部任务点的经纬度的平均值作为其全局中心域点的经纬度 值。 =( = = 其中k 指第k 类别,、为第k 类别中第i 个任务点的经纬度。 因此求得各个类别中心域与全局的中心域的显示如下图所示 (1.3) 图 2 类中心点在全局的分布图 从图中红色点的分布和蓝色点的分布可得各类任务群的密集程度的不同,各自的区 域中心离全局的区域中心距离相差也很大,因此任务点到类中心距离和到全局区域中心 距离可以作为指标来考虑其影响任务定价。 (2)将两两点经纬度转换成二维平面的空间距离 C=sin LatA sin LatB +cos LatA cos LatB cosMlonA−MlonB (1.4) 댠䗂 :统计每个任务点周围的会员数量,并计算这些会员的信誉均值 D=RarccosCpi/೘0 (1)每个任务点周围半径为 R 的范围内统计注册的会员数量 其中 LatA、LatB 表示 A、B 两个点的纬度,MlonA、MlonB 表示 A、B 两个点的经度, 由第二步可以得到每个同类区域的任务点之间的距离,从而可以初步评估如半径的范围, 然后再将会员的经纬度坐标覆盖在这些任务点的周围,进一步确定较适的的半径 R 的取 值。 D 为所求两个点的平面距离。 (1.5) 5
(1.6) (1) 建立多元线性回归方程: (2)采取最小二乘法估计多元回归方程的系数 采取按各自任务点划分类别进行多元线性回归: 因此本文中的半径 R 取值为 3km (2)计算每个任务点围绕的会员的信誉均值 Y=ε+β++33+ққ 댠䗂 :对影响任务点定价的四个因素进行多元回归线性拟合。 其中Y 是任务的定价,是全局中心与类中心的距离,是类中心与某一任务点 的距离,3是类中心周围会员的人数,қ是类中心周围会员的平均信誉值。 Q= = 即Q 达到最小值。 (−0−−−ққ 选取一个聚类的任务点的类别其任务定价和其他四种因素的数据,如下表所示: = = 表 1 选取一类数据表 5.1.3 模型求解    j j 当 时, )4,3,2,1(j 时,误差平方和最小。 8.412503393 4.393031708 1.59149866 8.589570633 11.77160706 15.59261969 7.72647483 10.71165867 8.977813566 10.47881789 4.778676029 4.202221803 6.437260986 9.172701902 6.7633309 6.196853158 5.593782838 1.782695704 9.520800171 5.64385846 4.195609979 7.584623296 5.745238583 9.83553152 6 10 14 14 13 6 4 11 3 7 2 18 14 16 7 19 15 18 11 2 6 4 6 4 7 (1.7) 10.70720282 42.32543099 24.64937606 10.77542535 4.686029577 4.4337 12.09181127 7.941132394 8.48648169 5.595791549 43.97552394 24.00157042 11.69607746 7.114647887 14.68950563 37.51602676 43.69990282 12.0702493 5.760960563 5.352560563 4.847576056 5.102360563 4.820716901 5.727940845 66.5 67 67 68.5 70 70 67 73 69 73 67 67 66 70 66 65.5 65 69 85 70.5 72 70 68 75 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554 77.36330554
75 75 77.36330554 77.36330554 77.36330554 6.155345931 10.4803251 5.19771431 5 9 18 4.820608451 6.27354507 43.69990282 0.044084 0.525231 0.003125 65.5 对该选取的该类别的模型求解,用 MATLAB 实现可得: R2 =0.5126,F=8.0626,P=7.5425e-4,S2=10.2386 p<0.05, 模型回归系数假设成立。 参数β系数依次为 0 0.965596 =0.969956+0.0ққ0೘қ+0.5533+0.0035қ+ 所以建立模型方程为: 对于该模型与附件一的实际任务定价做残差可得: 5.1.3 分析未完成原因 (1.8) 附件一任务的实际定价 表 2 模型残差表 该模型的估计定价 66.5 67 67 68.5 70 70 67 73 69 73 67 67 66 70 66 65.5 65 69 85 70.5 72 70 68 75 75 75 65.5 69.6662 66.9300 67.0866 68.1317 72.0350 73.2539 69.0958 73.4529 71.2877 74.0508 64.9547 67.2076 66.4631 71.3317 64.8822 66.5840 64.9907 68.8398 74.0221 71.7507 72.7515 71.8455 72.8140 71.4044 72.3136 70.3806 64.9732 残差 -3.1662 0.0700 0.0866 0.3683 -2.0350 -3.2539 -2.0958 -0.4529 -2.2877 -1.0508 2.0453 -0.2076 -0.4631 -1.3317 1.1178 -1.0840 0.0093 0.1602 10.9779 -1.2507 -0.7515 -1.8455 -4.8140 3.5956 2.6864 4.6194 0.5268 从表中可看出该模型估计的任务定价与附件一中实际的任务定价相差不大,可以作 为附件一的定价规律。 7
作出残差分析图,如下图所示: Residual Case Order Plot 15 10 5 0 -5 -10 l s a u d s e R i 5 10 15 Case Number 20 25 图 3 残差分析图 从图中可以清晰看出,剔除红色异常点,残差值的分布大致在零点附近,也说明本 问中建立的价格回归模型能较好的符合原始数据。 因此可以得到一些类别任务未完成的原因主要是因为该模型的这四个主要因素,即 该未完成任务周围的任务过少,任务群密集程度低,还有离全局中心区域点过远、围绕 该任务点的会员数量过少、且围绕周围的会员信誉值过低达不到完成该任务要求。另外 在此模型中还有一些较为突出的差异大的任务定价,可能是其他人为因素,如会员的活 跃度、还可能是其他天气,交通状况等因素的影响,也会降低任务完成度。 这是选取的一个类别数据建立的多元线性回归模型,其他类别的多元线性回归模型 见附录一。 5.2 问题二 5.2.1 名词解释 区域任务完成率:每一类中完成任务的数量占该类总任务数的比率。 区域最优价格:在区域任务完成率受限的情况下,根据区域任务完成率的定义,当 区域完成率达到最大时所求出的价格。 5.2.2 模型优化 .:求解最优价格。 本文把 835 个任务点按照各点之间的空间距离进行划分,得到的 23 类按密度划分的 任务点,其中每个类别中都有各自的特征属性,其中各类别又分为 4 大类: ①类中同时存在任务完成和未完成的情况; ②类中只存在任务完成的情况; ③类中只存在任务未完成的情况; ④类中只有一个任务点; 因本题模型主要是通过修改参数使整体的定价平均值不断接近局部最优价格;而对 8
分享到:
收藏