大数据的研究现状、应用领域及存在问题
王尚尚
(金陵科技学院 软件工程 江苏 南京 211169)
【摘要】近来,大数据的快速发展引起了国内外的广泛关注和重视。本文简要的阐述了
大数据如今的研究现状和应用领域,探讨了大数据存在的问题。最后,对大数据未来的发展
提出了几点看法。
【关键词】大数据,应用,数据分析,人工智能,云计算。
1. 引言
2.2 大数据兴起的背景
近年来,大数据的快速发展引起了国内
第一次信息化浪潮的出现是在 1980 年
外的广泛关注和重视,国内的许多高校都已
前后,标志是个人计算机的出现,它解决了
经开设了与大数据相关的课程。随着互联网
信息处理的问题,代表的企业有 Intel、AMD、
的快速发展,每个人每天产生的数据有很多,
IBM、苹果、微软等。第二次信息化浪潮发
各行各业都面临着海量数据处理的压力。传
生在 1995 年前后,标志是互联网的出现,
统的方式已经不能满足海量信息计算分析
解决了信息传输的问题,代表的企业有雅虎、
的需求,大数据正在以空前的速度发展着,
谷歌、阿里巴巴、百度、腾讯等。第三次浪
2012 年,奥巴马政府宣布启动了“大数据研
潮发生在 2010 年左右,标志着大数据的兴
究和发展计划”,旨在提升利用大量复杂数
起,解决了处理数据的问题,将会出现一大
据集合获取知识和洞见的能力。如今的时代
批标杆的企业。
被称为大数据的时代,大数据被认为是“未
2.3 意义
来的新石油”,大数据对未来的科技和经济
现在的社会是一个高速发展的社会,科
发展有着深远的影响。
2. 何谓大数据
2.1 定义
技发达,信息流通,人们之间的交流越来越
密切,生活也越来越方便,大数据就是这个
高科技时代的产物。阿里巴巴创办人马云来
对于“大数据”(Big data)研究机构
台演讲中就提到,未来的时代将不是 IT 时
Gartner 给出了这样的定义。“大数据”是
代,而是 DT 的时代,DT 就是 Data Technology
需要新处理模式才能具有更强的决策力、洞
数据科技,显示大数据对于阿里巴巴集团来
察发现力和流程优化能力来适应海量、高增
说举足轻重。
长率和多样化的信息资产。
有人把数据比喻为蕴藏能量的煤矿。煤
麦肯锡全球研究所给出的定义是:一种
炭按照性质有焦煤、无烟煤、肥煤、贫煤等
规模大到在获取、存储、管理、分析方面大
分类,而露天煤矿、深山煤矿的挖掘成本又
大超出了传统数据库软件工具能力范围的
不一样。与此类似,大数据并不在“大”,
数据集合,具有海量的数据规模、快速的数
而在于“有用”。价值含量、挖掘成本比数
据流转、多样的数据类型和价值密度低四大
量更为重要。对于很多行业而言,如何利用
特征[1]。
这些大规模数据是赢得竞争的关键。
3. 大数据的研究现状
中国目前的大数据应用环境和技术和
熟,大数据研究工作已有加速发展之势。就
美国相比,在整体技术水平、应用环境、国
总体而言,尽管国内外研究程度不一,但大
民意识、商业环境、技术厂商、技术平台上
数据研究工作仍处于起步阶段,而且这个阶
面相差超过 5 年左右。在大数据应用的国家
段会随着大数据技术的持续创新而长期存
战略层面落后的也较多。2012 年 3 月,美国
在。
奥巴马政府宣布推出“大数据的研究和发展
目前大数据行业主要是对大数据进行
计划” [2]。该计划涉及美国国家科学基金、
数据挖掘和数据分析[3],从数据之中提取出
美国国家卫生研究院、美国能源部、美国国
有价值的信息。与大数据相关的研究还有云
防部、美国国防部高级研究计划局、美国地
计算和人工智能,对于数据的分析:可能需
质勘探局等 6 个联邦政府部门,投资了两亿
要对大量的数据做分解、统计、汇总,一台
多美元,大力推动了大数据行业的发展。美
机器肯定搞不定,处理到猴年马月也分析不
国的这一举动,标志着大数据从商业活动上
完。例如大数据分析公司的财务情况,可能
升到了国家战略,大数据在经济社会各个层
一周分析一次,如果要把这一百台机器或者
面,各个领域都开始受到重视。
一千台机器都在那放着,一周用一次非常浪
大数据目前处于蓬勃发展的现状。英国
费。那能不能需要计算的时候,把这一千台
非常重视大数据技术的开发与研究,政府为
机器拿出来;不算的时候,让这一千台机器
发展 8 类高新技术注资 6 亿英镑支持有关研
去干别的事情?谁能做这个事儿呢?只有
究机构和研发工作,重点研发信息行业新兴
云计算,可以为大数据的运算提供资源层的
的大数据技术。我国政府、学术界也做了相
灵活性[4]。人工智能也是大数据研究的一个
应的理论研究和实践研究。2016 年 3 月 17
热门的方向,通过大量的数据来训练机器,
日,《中华人民共和国国民经济和社会发展
让机器从这些数据中学习,从而模拟人类的
第十三个五年规划纲要》发布,其中第二十
思维方式,由于人工智能算法多是依赖于大
七章“实施国家大数据战略”提出:把大数
量的数据的,这些数据往往需要面向某个特
据作为基础性战略资源,全面实施促进大数
定的领域(例如电商,邮箱)进行长期的积累,
据发展行动,加快推动数据资源共享开放和
如果没有数据,就算有人工智能算法也白搭,
开发应用,助力产业转型升级和社会治理创
所以人工智能程序很少像普通软件一样,将
新;具体包括:加快政府数据开放共享、促
人工智能程序给某个客户安装一套,让客户
进大数据产业健康发展。
去用。因为给某个客户单独安装一套,客户
大数据研究正在由前几年的新技术变
得越来越普及和商业化。同时,由于研究的
没有相关的数据做训练,结果往往是很差的。
4. 大数据的应用领域
向前推进,以数据为基础的人工智能、机器
目前大数据主要有 7 个应用场景,分别是环
学习和物联网等其他各个领域也将取得越
境、教育行业、医疗行业、农业、智慧城市、
来越大的成果。随着大数据技术发展逐渐成
零售行业、金融行业[5]。
4.1 环境行业
报告,政府可为农业生产进行合理引导,依
借助于大数据技术,天气预报的准确性
据需求进行生产,避免产能过剩造成不必要
和实效性将会大大提高,预报的及时性将会
的资源和社会财富浪费。
大大提升,同时对于重大自然灾害如龙卷风,
通过大数据的分析将会更精确地预测
通过大数据计算平台,人们将会更加精确地
未来的天气,帮助农民做好自然灾害的预防
了解其运动轨迹和危害的等级,有利于帮助
工作,帮助政府实现农业的精细化管理和科
人们提高应对自然灾害的能力。
学决策。
4.2 教育行业
4.5 智慧城市
信息技术已在教育领域有了越来越广
大数据技术可以了解经济发展情况、各
泛的应用,教学、考试、师生互动、校园安
产业发展情况、消费支出和产品销售情况等,
全、家校关系等,只要技术达到的地方,各
依据分析结果,科学地制定宏观政策,平衡
个环节都被数据包裹。
各产业发展[6],避免产能过剩,有效利用自
通过大数据的分析来优化教育机制,也
然资源和社会资源,提高社会生产效率。大
可以作出更科学的决策,这将带来潜在的教
数据技术也能帮助政府进行支出管理,透明
育革命,在不久的将来,个性化学习终端将
合理的财政支出将有利于提高公信力和监
会更多地融入学习资源云平台,根据每个学
督财政支出[7]。
生的不同兴趣爱好和特长,推送相关领域的
4.6 零售行业
前沿技术、资讯、资源乃至未来职业发展方
零售行业大数据应用有两个层面,一个
向。
层面是零售行业可以了解客户的消费喜好
4.3 医疗行业
和趋势,进行商品的精准营销,降低营销成
医疗行业拥有大量的病例、病理报告、
本。另一个层面是依据客户购买的产品,为
治愈方案、药物报告等,通过对这些数据进
客户提供可能购买的其他产品,扩大销售额,
行整理和分析将会极大地辅助医生提出治
也属于精准营销范畴。
疗方案,帮助病人早日康复。可以构建大数
未来考验零售企业的是如何挖掘消费
据平台来收集不同病例和治疗方案,以及病
者需求,以及高效整合供应链满足其需求的
人的基本特征,建立针对疾病特点的数据库,
能力,因此,信息技术水平的高低成为获得
帮助医生进行疾病诊断。
竞争优势的关键要素。
医疗行业的大数据应用一直在进行,但
4.7 金融行业
是数据并没有完全打通,基本都是孤岛数据,
银行数据应用场景:利用数据挖掘来分
没办法进行大规模的应用。未来可以将这些
析出一些交易数据背后的商业价值。
数据统一采集起来,纳入统一的大数据平台,
保险数据应用场景:用数据来提升保险
为人类健康造福。
4.4 农业行业
产品的精算水平,提高利润水平和投资收益。
证券数据应用场景:对客户交易习惯和
借助于大数据提供的消费能力和趋势
行为分析可以帮助证券公司获得更多的收
益。
5. 大数据存在的问题
5.1 数据管理
因为无法处理非结构化的海量数据,从中找
出确定性的结论,索性拥抱凯文凯利所称的
混乱。这种想法在某些领域是有效地,比如
公司面临大数据的一些最大挑战是了
它可以解释生物的选择性,东非草原上植物
解如何管理大量数据,正确组织数据,然后
的选择过程,但是未必能解释人,解释事件
从中获取有益的见解。交易是一个产生大量
过程和背后的规律。
数据的领域,目前市场正在努力保留大数据
大数据意味着更多的信息,但同时也意
存储解决方案中的所有内容,以防将来需要
味 着 更 多 的 虚 假 关 系 信 息 , 斯 坦 福 大 学
这些内容。然而,每个市场都会产生数据,
Trevor Hastie 教授用‘在一堆稻草里面找
所以从长远来看,存储所有内容是不可能的,
一根针’来比喻大数据时代的数据挖掘,问
存储所有时间是不切实际的。例如,浏览大
题是很多稻草长得像针一样,‘如何找到一
量非结构化数据并查找与交易决策相关的
根针’是现在数据挖掘的问题上面临的最
所有信息可能非常困难且耗时[8]。
大问题,海量数据带来显著性检验的问题,
在快节奏和不断变化的商业环境(如交
将使我们很难找到真正的关联。
易)中分析数据通常很困难。在业务流程易
5.3 缺失数据
于频繁变更的环境中,事后数据分析尤其困
对所有大数据来讲,分析哪个问题数据
难,贸易公司通常就是这种情况[9]。在这些
量都不够大,对于所有人来讲,数据都是缺
公司中,分析数据的方式需要与数据生效的
失多于正常数[12]。在数据收集和整合过程中
特定时间点的业务流程规则保持一致。这是
采用新技术手段避免这一问题将使这一问
因为导致算法基于当前特定市场数据执行
题在分析上带来的分险变得更突出,比如 BI
订单的业务规则可能与 6 个月前的规则不同。
公司为了避免数据的不完整性采用快速修
因此,管理这种动态,并回顾性地应用适当
复技术整合分散数据,这将使我们失去最原
的业务规则,可以理解地呈现出许多问题[10]。
始的真实数据,这使得研究者很容易舍弃与
5.2 数据的风险
假设不符合的数据,也使验证结论变得不再
维克托·迈尔-舍恩伯格在其著作中也
可能。
指出这一点,“数据量的大幅增加会造成结
固然缺失数据可以尝试通过模糊数据
果的不准确,一些错误的数据会混进数据
集理论得到解决,但许多研究情境对数据的
库,”[11]此外,大数据的另外一层定义,多
要求是有确定性的。大数据时代需要的不只
样性,即来源不同的各种信息混杂在一起会
是全数据、海量数据、实时数据,而是真正
加大数据的混乱程度,统计学者和计算机科
的开放、更可能接近精确、着眼于人和社会
学家指出,巨量数据集和细颗粒度的测量会
的分析方法和思路。封闭的数据平台,对断
导致出现“错误发现”的风险增加。那种认
裂数据、缺失数据在分析上构成的风险的忽
为假设、检验、验证的科学方法已经过时的
视会使我们仍然停留在小数据时代,更糟糕
论调,正是出于面对大数据时的混乱与迷茫,
的是,数据还在小数据时代,方法上却已经
在单纯鼓吹各种应对大数据的新技术,这种
[4] 刘鹏. 云计算(第三版)[M]. 北京:电子工
不匹配造成的混乱比大数据本身带来的混
业出版社. 2015:3-7.
乱还要危险。
6. 结论
[5] 刘鹏. 大数据[M]. 北京:电子工业出版社.
2017:1-8.
大数据时代已经来临,社会各行各业都
[6] 于 艳 华 . 大 数 据 [J]. 中 兴 通 讯 技 术 .
面临着前所未有的数据量和数据分析需求,
2013-1-19:57-60.
本文就大数据的研究现状、应用领域和存在
[7] 柴彦威,龙瀛,申悦. 大数据在中国智慧城市
问题做了一些相关论述和分析。从文中可以
规划中的应用探索[J]. 国际城市规划.2016
看出,大数据的研究价值很高,应用领域也
[8] Nicole Miskelly. Big Data: Challenges,
很广泛,但是大数据仍然处于一个初级阶段,
Risks and Solutions[EB/OL]. [2015-7-21].
还有很多问题需要解决[13]。
https://www.bobsguide.com/guide/news/2015/J
大数据技术还需探索多数据源有效获
ul/21/big-data-challenges-risks-and-solutio
得高质量数据的理论与方法。大数据技术还
ns/
需研究高效的数据过滤方法,建立多模态融
[9] 宗威,吴峰. 大数据时代下数据质量的挑战
合计算的理论,提高数据的可用性。 大数
[J]. 西安交通大学学报:社会科学版. 2013-3-3:
据技术还需解决数据恢复、定量评估和数据
38-43.
演化的新问题,进一步研究近似计算理论和
[10] 孟晓峰. 大数据管理:概念、技术与挑战[J].
技术,解决缺失数据的利用问题等[14]。
计算机研究与发展. 2013:146-169.
未来是大数据的时代,只有紧跟大数据
[11] Viktor Mayer-Schönberger. Big Data: A
发展的理论前沿和实践需要,运用大数据思
Revolution That Will Transform How We Live,
维才能科学的把握大数据发展的走势。所以
Work, and Think[M].2014-3-4:100-182.
对于大数据我们还有很长的一段路要走[15]。
[12] Allison, Paul D. (2001).
Missing
【参考文献】
Data
(1st ed.). Thousand Oaks: Sage
[1] Marr, Bernard. Big Data: The 5 Vs Everyone
Publications,Inc.
ISBN 978-0-7619-1
Must Know.2014.
672-7.
https://www.linkedin.com/pulse/201403
[13]张泉灵. 大数据技术研究综述[J]. 浙江大学
06073407-64875646-big-data-the-5-vs-e
学报(工学版). 2014.
veryone-must-know/
[14] 胡晓峰,刘洋. 大数据研究综述[J].国防大
[2] Tom Kalil. Big Data is a Big Deal[EB/OL].
学信息作战与指挥训练教研部. 2015.
2012-3-29.
[15] Talend. The Future Of Big Data[EB/OL].
https://obamawhitehouse.archives.gov/blog/2
2018.
012/03/29/big-data-big-deal.
https://www.talend.com/resources/future-big
[3] 孔志文. 大数据分析与处理方法分析[J]. 广
-data/
州省民政职业技术学院. 2014