第一节 大数据的发展过程、现状和趋势
所谓大数据,是与之前的小数据相对应而提出的概念,虽然大数据这个新生事物的发展时间不长,但是今天已经看到,所谓大数据绝不只是数据值或数据量大这么简单,它所包含的丰富内涵及巨大潜能是之前的小数据无法比拟的。
一、大数据的定义和特征
迄今为止,对什么是大数据还没有形成公认的定义。麦肯锡全球研究机构(McK-insey Global Institute)认为,大数据是指“大小超出典型数据库工具收集、存储、管理和分析能力的数据集”。维基百科(Wikipedia)认为,大数据为规模庞大、结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。美国国家标准技术研究院(NIST)认为,大数据由具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)和变化多样(Variability),且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集组成。
高德纳(Gartner)公司认为,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。
国际数据公司(IDC)从大数据的特征上对大数据进行定义,认为大数据具有4V特征,即数据量大(Volume)、数据类型多(Variety)、产生速度快(Velocity)和价值大但价值密度低(Value)。具体解读如下:
Volume,指数据量大。这是大数据的数量特征,即数据量大,无论采集、存储和计算,数据量都非常大,是海量数据。数量级大小至少是PB(拍字节,1PB=1024TB, 1TB=1024GB)、EB(艾字节,1EB约等于100万个TB)或ZB(泽字节,1ZB约等于10亿个TB)。
Variety,指数据类型多。这是大数据的结构特征,即大数据来源多样,数据类型多。除传统的结构化数据外,更有非传统的半结构化甚至是非结构化数据,如网络日志、音频、视频、图片、地理位置信息等。
Velocity,指数据产生速度快,数据的时效性强。这是大数据的时间特征,即大数据产生速度快,增长速度快,处理速度也快,数据处理的时效性要求高。如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法则尽可能要求实时推荐。
Value,指数据有价值,具体指大数据总体价值大但单体数据价值密度低,大数据价值又被比喻为新时代的石油、黄金、土地、钻石矿,这是大数据的价值特征。由于价值密度低,对大数据的处理技术、工具和能力提出了更高的要求。大数据价值挖掘犹如大浪淘沙。如何结合业务逻辑并通过强大的机器算法挖掘数据价值,是大数据时代最需要解决的问题。
IBM提出大数据具有5V特性,即除上述4V外,还有真实(Veracity)的特性,即大数据是对客观世界的真实记录。真实(Veracity)是大数据的内容特征,是大数据的价值所在,是大数据具有大价值的前提。除此之外,还有人认为大数据具有3S特点:量大(Size)、迅速(Speed)、结构化(Structure);3I特点:定义不明确的(Ill-defined)、令人生畏的(Intimidating)、即时的(Immediate)。大数据具有“大”“杂”“全”“多”“快”“久”“活”“密”“稀”“联”10字特征等。可以预见,随着大数据技术的发展,对大数据本质特征及多面特征的认识会更加全面和深入。
大数据多面特征是大数据的必然表现。但从根本上讲,大数据最基准的要求是数据量大小或数据规模的问题。目前比较公认的是,大数据是指数据量大小达PB(拍字节)数量级以上的数据。1PB=1024TB=250bit(B),约千万亿字节。
随着大数据技术水平的发展,大数据的数量级标准还会进一步提高。比如,在PB(拍字节)数据级以上,还有EB(Exabyte,艾字节,1EB=1024PB=260B)、ZB(Zettabyte,泽字节,1ZB=1024EB=270B)、YB(Yottabyte,尧字节,1YB=1024ZB=280 B),再往上还有BB(Brontobyte)(290B)、NB(Nonabyte)(2100B)、DB(Doggabyte)(2110B)、CB(Corydonbyte)(2120B)、XB(Xerobyte)(2130B)、FB(2140B)、HB(2150 B)等。由此可见,大数据的大是相对概念,没有最大,只有更大。
正由于大数据首先是海量数据,加上数量类型复杂、产生速度快、时效性强、价值密度低等特性,这才给数据的采集、清洗、存储、管理、分析、挖掘等提出了新的要求,给数据价值的实现带来了新的挑战,而这也正是大数据时代的价值及意义所在。
二、大数据的发展过程
迄今为止,大数据的发展经历了大数据酝酿阶段(1997—2008年)、大数据诞生阶段(2009—2012年)、大数据初级阶段(2013年至今)。
(一)大数据酝酿阶段(1997—2008年)
大数据一词来源于英文Big Data。尽管近年来才受到人们的高度关注,但早在1980年,美国社会思想家阿尔文·托夫勒(Alvin Toffler)在《第三次浪潮》一书中就使用了“大数据”(Big Data)一词,并称颂它为“第三次浪潮的华彩乐章”。托夫勒在书中说道:“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’才是第三次浪潮的华彩乐章。”
1997年10月,美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议上,首次使用“大数据”这一术语来描述20世纪90年代的挑战:模拟飞机周围的气流是不能被处理和可视化的,其数据集相当大,超出了主存储器、本地磁盘,甚至远程磁盘的存储容量。他们称这个问题为“大数据”问题。
2001年2月,梅塔集团分析师道格·莱尼发布了一份研究报告《3D数据管理:控制数据容量、处理速度及数据种类》。10年后,报告中提到的3V作为大数据的三个主要特征而被广泛接受。
2002年“9·11”袭击后,美国政府为阻止恐怖主义,已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人员的大数据库。一年后国会因担忧公民自由权而停止了这一项目。2004年“9·11”委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便快速处理应接不暇的数据。
2003年起,谷歌(Google)陆续发表了引爆大数据时代的三篇论文,主题为:Google File System(可扩展分布式文件系统)、MapReduce(大数据分布式计算方式)、BigTable(分布式数据存储系统)。虽然谷歌没有公布这三个产品的源码,但是发布了这三个产品的详细设计论文,这正是构建Hadoop系统架构的“三驾马车”,由此奠定了风靡全球的大数据算法的基础。
谷歌在2006年首先提出云计算的概念。“大数据”在云计算出现之后凸显其真正价值。2007—2008年,随着社交网络的激增,技术博客和专业人士为“大数据”概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”,《连线》的克里斯·安德森认为,当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称:“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”
2008年9月,Nature(《自然》)杂志推出了“Big Data:Science in the Petabyte Era”(大数据:PB时代的科学)的封面专栏,大数据(Big Data)引起人们的关注、争论和传播。
2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,计算社区联盟(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它使人们的思维不仅局限于数据的计算机处理,而且提出大数据真正重要的是新用途和新见解,而非数据本身。该组织可以说是最早提出大数据概念的机构。
(二)大数据诞生阶段(2009—2012年)
2009—2010年,“大数据”成为互联网技术行业中的热门词汇。2009年印度建立了用于身份识别管理的生物识别数据库;2009年联合国全球脉冲项目研究了如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。
2009年,美国政府Data.gov网站正式向所有公众无须授权无差别开放,进一步开放了政府数据的大门,Data.gov网站向公众提供各种各样的超过4.45万个政府数据集,这些数据被用于保证互联网服务,如手机应用程序跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了肯尼亚、英国等政府的类似举措。同年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系,致力于改善从互联网上获取科学数据的简易性。
2010年2月,肯尼斯·库克尔在《经济学人》上发表《数据,无所不在的数据》大数据专题报告。库克尔在报告中写道:“世界上有着无法想象的巨量数字信息,并以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。”库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。
2011年,IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者,《纽约时报》称这一时刻为一个“大数据计算的胜利”。
2011年5月,全球知名咨询公司麦肯锡(McKinsey Company)全球研究院(MGI)发布了一份报告《大数据:创新、竞争和生产力的下一个新领域》,第一次全方面地介绍和展望大数据。该报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一轮生产率增长和消费者盈余浪潮的到来,“大数据时代已经到来”。该报告还提到,“大数据”源于数据生产与收集的能力和速度大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。
2012年1月,在瑞士达沃斯召开的世界经济论坛上,大数据是论坛的重要主题,论坛发布报告《大数据,大影响》(Big Data,Big Impact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
2012年3月,美国奥巴马政府颁布了《大数据的研究和发展计划》,这一计划标志着大数据已经成为重要的时代特征。紧接着,英国发布了《英国数据能力发展战略规划》、日本发布了《创建最尖端IT国家宣言》、韩国提出了“大数据中心战略”,其他国家也制定了相应的战略和规划。
2012年3月22日,奥巴马政府宣布投资2亿美元到大数据领域,大数据技术从商业行为上升到国家科技战略,并在次日电话会议上把大数据定义为“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力,国家数字主权体现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的领域。
2012年4月19日,美国软件公司Splunk在纳斯达克成功上市,成为第一家上市的大数据处理公司,上市首日股票即暴涨了一倍多。Splunk成立于2003年,是一家领先的提供大数据监测和分析服务的软件提供商。Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。
2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何更好地利用大数据服务和保护人民。同年7月,为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务,希望通过分享和挖掘海量数据,为客户和企业提供价值。
随着2012年维克托·路迈尔·舍恩伯格和肯尼斯·库克耶的《大数据时代》一书的出版,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,随着时间的推移,人们将越来越意识到数据的重要性,大数据乘着互联网的浪潮在各行各业中扮演着举足轻重的角色,大数据决定着未来。
(三)大数据初级阶段(2013年至今)
2013年被称为中国的“大数据元年”。大数据概念因为互联网和信息行业的发展引起人们的关注,这一年大数据开始在我国以势不可当的姿态进入人们的思想意识,并在社会的各个领域探索与落地实践。阿里巴巴2013年1月1日转型重塑平台、金融和数据三大业务,是最早提出通过数据进行企业数据化运营的企业。大数据掀起的变革,正在对现有的生产力和生产关系产生重要影响。
提到大数据不得不提贵州省贵阳市。2013年9月8日,贵阳市人民政府与中关村科技园区管理委员会在贵阳签署战略合作框架协议,双方共同打造的“中关村贵阳科技园”揭牌,拉开了贵阳发展大数据的序幕。贵州省更是把大数据当作可以实现工业结构快速更新的“一号工程”。2014年2月,贵州省发布《大数据产业发展应用规划纲要(2014—2020年)》,以大数据应用作为产业发展的战略引领,通过改革、开放、创新,挖掘数据资源价值,集聚大数据技术成果,形成大数据企业集群,全面提升大数据产业发展支撑能力、大数据技术创新能力和大数据安全保障能力。努力建成全国领先的大数据资源集聚地和大数据应用服务示范基地,为经济社会加速发展、加快转型提供有力支撑。2014年3月,贵州省在北京宣布大数据产业启航。2014年6月,贵州省政府成立贵州省大数据产业发展领导小组。
2014年3月,“大数据”首次出现在《2014年国务院政府工作报告》中。《2014年国务院政府工作报告》指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。同年,国务院通过《企业信息公示暂行条例(草案)》要求在企业部门间建立互联共享信息平台,运用大数据等手段提升监管水平,“大数据”成为舆论热词。
2014年4月,以“大数据的回报与风险”为主题的世界经济论坛发布了《全球信息技术报告(第13版)》,该报告认为,未来几年针对各种信息通信技术的政策会显得更加重要。5月,美国白宫发布了2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,鼓励使用数据全方位推动社会进步。
2015年9月,国务院正式发布《促进大数据发展行动纲要》推动大数据发展和应用。纲要明确,在未来5~10年,打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启“大众创业、万众创新”的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
2015年10月,党的十八届五中全会提出要实施“国家大数据战略”,大数据第一次被写入党的全会决议。大数据正式上升为国家战略。
2016年2月,经国家发展改革委、工业和信息化部、中央网信办批复,同意贵州省建设首个国家大数据(贵州)综合试验区。2016年5月25日,中国大数据产业峰会暨中国电子商务创新发展峰会在贵阳开幕,国务院总理李克强出席开幕式并做了主旨演讲。
2016年12月,《大数据产业发展规划(2016—2020年)》与《软件和信息技术服务业发展规划(2016—2020年)》《信息通信行业发展规划(2016—2020年)》相继出台。大数据首次出现在五年规划体系的细分行业中,与电子信息产业与信息通信业规划并行,这说明大数据越来越受到国家层面的重视。大数据将在稳增长、促改革、调结构、惠民生中扮演越来越重要的角色,在经济社会发展中的基础性、战略性、先导性地位越来越突出。大数据将重构信息技术体系和产业格局,为我国信息技术产业的发展提供巨大机遇。
《大数据产业发展规划(2016—2020年)》以强化大数据产业创新发展能力为核心,明确了强化大数据技术产品研发、深化工业大数据创新应用、促进行业大数据应用发展、加快大数据产业主体培育、推进大数据标准体系建设、完善大数据产业支撑体系、提升大数据安全保障能力等7项任务,提出大数据关键技术及产品研发与产业化工程、大数据服务能力提升工程等8项重点工程,研究制定了推进体制机制创新、健全相关政策法规制度、加大政策扶持力度、建设多层次人才队伍、推动国际化发展等5项保障措施。根据该规划,“十三五”期间,大数据相关产品和服务业务收入将突破1万亿元。
2017年,大数据市场全面打开,各省市积极响应中央号召,出台多项政策扶持大数据,兴建大数据产业和大数据中心,大数据行业呈现井喷式发展。京、津、沪、渝、冀、辽、贵、晋等省市政府相继出台了大数据研究与发展行动计划,整合数据资源,实现区域数据中心资源汇集与集中建设。
2017年,在北京、上海、贵阳开展了大数据标准试点示范。全国至少已有13个省成立了21家大数据管理机构,已有35所本科院校获批“数据科学与大数据技术”本科专业,62所专科院校开设“大数据技术与应用”专科专业,申报数据科学与大数据技术本科专业的院校达到293所。
《中国大数据发展调查报告(2018年)》显示,2017年中国大数据产业总体规模为4700亿元,同比增长30%。2017年大数据核心产业规模为236亿元,增速达到40.5%,预计2018—2020年增速将保持在30%以上。
2018年,达沃斯世界经济论坛等全球性重要会议都把“大数据”作为重要议题,许多国家政府对大数据产业发展有着高度的热情。2018年,美国希望利用大数据技术实现科研、教学、环境保护、工程技术、国土安全、生物医药等多个领域的突破。欧盟在大数据方面的活动主要涉及四个方面:数据价值链战略、开放数据创新、开放数据政策、科研数据使用等。
中共中央政治局2018年12月8日就实施国家大数据战略进行第二次集体学习,习近平总书记在主持学习时强调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好地服务我国经济社会发展和人民生活改善。
三、大数据的发展现状
时至今日,大数据的发展仍处于初级阶段。经过企业、政府、产业、社会的推广,大数据发展浪潮席卷全球。全球各经济社会系统采集、处理、积累的数据增长迅猛,大数据全产业市场规模逐步提升。大数据已渗透到每一个行业、业务、职能领域,成为重要的生产要素,大数据与数字经济已成为各国重塑竞争优势的共同选择。
大数据所蕴含的战略价值已经引起多数发达国家政府的重视,纷纷在国家层面进行战略部署,实施大数据战略,将开发利用大数据作为争夺新一轮竞争制高点的重要举措,以迎接大数据技术革命带来的新机遇和新挑战。各国相继出台大数据战略规划和配套法规促进大数据应用与发展,为大数据技术、产业发展提供有利条件。在各国政府大数据战略部署和政策推动下,政府部门、企业、高校及研究机构都开始积极探索大数据应用。以美国为代表的发达国家在推进大数据上已经形成了从发展战略、法律框架到行动计划的完整布局。整体来说,与西方发达国家相比,亚洲大数据发展相对落后,在大数据发展过程中,更多的还处于探索及学习阶段。
2019年5月12日,首届天府大数据与数字经济发展论坛发布《2018全球大数据发展分析报告》,称2018年全球大数据市场总体价值约420亿美元,其中大数据软件市场价值约140亿美元,大数据服务和硬件市场规模在经历2016—2022年的快速增长后,将放缓增长趋势,大数据软件市场规模仍将保持10年的高速增长。在国家政府大数据开放建设方面,韩国、加拿大、美国等政府排名比较靠前。
该报告指出,以全球大数据发展情况为背景,中国政府数据共享开放正处于国家领导人高度重视、积极快速发展的阶段。中国政府开放数据的实施路径是由地方政府数据开放为起始,逐渐形成国家层面的数据开放。中国凭借近几年“互联网+”“大数据+”等融合创新,积累了丰富的数据资源,同时,大数据价值创造应用已经渗透到政务、零售、交通、医疗、教育、公共治理等各个领域,实现了良好的人口及产业规模效应。
2019年5月27日,以“创新发展,数说未来”为主题的2019年中国国际大数据产业博览会发布了《大数据蓝皮书:中国大数据发展报告No.3》,公布中国31个省份和重点城市的大数据发展指数评估,结果显示,在省市排名中,位居前十的分别是北京、广东、浙江、上海、贵州、江苏、重庆、天津、山东和河北(见表1-1)。
表1-1 2018年全国31个省市大数据发展指数评估排名前10位结果
从全国来看,大数据发展逐步形成了以8个国家大数据综合试验区为引领,京津冀、长三角、珠三角、中西部地区4个集聚区域协同发展的格局。京津冀以北京为引领,天津、河北大数据发展处在全国中上游水平。珠三角以广东居全国首位,周边其他省份发展水平与广东有较大差距。长三角整体发展水平普遍较高,上海、江苏、浙江跻身全国第一集团。
《2018全球大数据发展分析报告》显示,中国大数据技术创新能力有了显著的提升。2015—2018年,大数据领域相关专利,美国、英国、韩国等整体数量处于领先地位,中国大数据专利数量的年均复合增长率达49.9%,2018年达到1万个左右。从全球大数据领域相关技术专利数量比例看,中国从2015年的2%增长到2018年的38.5%,并呈现持续上升趋势。
当前大数据解决方案主要表现在大数据技术、大数据工程、大数据科学和大数据应用等领域。人们谈论最多的是大数据技术和大数据应用,大数据工程和大数据科学问题尚未被重视。大数据技术是新一代信息技术构架,它以较低数据存储成本,以快速采集、处理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发展,让处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式。大数据工程是大数据规划建设、运营管理的系统工程。大数据科学关注大数据网络发展和运营过程中大数据规律及其与自然和社会活动之间的关系。
大数据处理技术主要体现在六个环节上:
(1)大数据采集与预处理。最常见的问题是数据的多源性和多样性,关键是多种数据清洗和质量控制工具,如IBM的Data Stage等。
(2)大数据存储与管理。最常见挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化数据。主要方法是分布式文件系统和分布式数据库,大数据索引和查询技术、实时及流式大数据存储与处理。
(3)大数据计算模式。典型计算模式及工具有:大数据查询分析计算如Hive、批处理计算如Hadoop MapReduce、流式计算如Storm、迭代计算如Hadoop、图计算如Pregel、内存计算如Hana等,以及这些典型计算模式工具的混合计算模式。
(4)大数据分析与挖掘。即数据的深度分析和挖掘,并且是自动化分析。主要工具有R Hadoop、基于MapReduce的数据挖掘算法等。
(5)大数据可视化。基本要求是用形象和简明的方式来探索和解释复杂数据,以利于决策者挖掘数据的商业价值,主要可视化工具如Tabealu等。
(6)大数据安全。通过加密保护、匿名化保护技术、基础设备加密和访问控制来限制数据的操作,保护大数据不受黑客攻击,最大程度保护数据安全。
四、大数据的发展趋势
未来,大数据将会在以下几个方面发生改变:
一是大数据应用基础条件发生跨越式变化。一方面,政府数据开放的广度和深度将进一步拓宽,多源数据融合技术的进步,为公共服务数字化与智能化水平的提升提供了技术层面的保障,数据的标准化及开放则成为各国建设服务型政府和平台型政府的资源保障。另一方面,大数据应用的基础设施将成为与水电气暖等相类似的设施,成为人们生活中必不可少的部分。其中包括:物联网、智能硬件等数据采集类设施,5G、光通信等超高速数据传输类设施,超级计算机、云计算以及边缘计算等计算类设施,以及新型的存储设施等。
二是大数据与物联网、人工智能、云计算、区块链等关联技术在各自领域内深化发展。深化发展或分化发展的主要表现是:
(1)数据库能力提升。如谷歌的Spanner和亚马逊的Redshift都体现了这种变化。数据库能力增强,可以解决很多大数据问题。
(2)机器学习继续成为大数据智能分析的核心技术。
(3)边缘计算快速发展,量子计算进一步发展,大数据分析方法有望取得革命性突破。大数据平台更强调实时性,流计算变得非常重要。
(4)语音识别、视频分析挖掘技术获得突破,从实验室走向市场,进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
(5)基于区块链技术的大数据应用场景渐渐丰富。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制,是区块链系统中不同节点之间建立信任、获取权益的数学算法。
(6)大数据的安全和隐私保护成为研究和应用的热点。
三是大数据与物联网、人工智能、云计算、区块链等关联领域在各自发展的同时将日趋融合与高度融合,即所谓的数据汇流,这成为各国抢抓未来发展机遇的战略性技术。数据汇流或技术融合的典型表现为:
(1)数据科学带动多学科融合,基础理论研究受到重视,但相当长时期内突破不大。
(2)机器人、无人机和自动驾驶等自主设备进一步发展。
(3)沉浸式体验。虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统。虚拟现实(VR)、增强现实(AR)和混合现实(MR)技术的运用,使用户沉浸到多源信息融合的、交互式的三维动态视景与实体行为的环境中。
(4)智慧城市或智慧社会。智慧城市就是运用大数据、物联网、云计算等新一代信息技术观测、分析、整合城市运行核心系统的各项关键信息,对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应,为城市中的人创造更美好的生活,促进城市和谐与可持续发展。
四是大数据推动科技领域发展。大数据成为各行各业的底层共性技术,不仅体现在互联网领域,也体现在金融、教育、医疗等诸多领域。在人工智能研发领域,尤其在机器学习、计算机视觉和自然语言处理等方面,大数据正在成为智能化社会的基础。
五是大数据产业链逐渐形成。经过近几年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成一定的产业规模。相信随着大数据的不断发展,相关产业规模会进一步扩大。
六是产业互联网将推动大数据落地。当前,互联网正从消费互联网向产业互联网过渡,产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业,可以说产业互联网的发展空间非常大,而大数据则是产业互联网发展的一个重点。
七是大数据资源对各国经济政治博弈的重要性更加凸显。美国最新版国家安全战略中,特朗普再次将“数据”比喻为一种能源,他认为掌握了数据及相关能力,就是为美国经济的持续增长、有效抵制敌对意识形态以及部署建设最强大军事力量等构建了基础保障。
八是大数据安全为各国实现平衡发展带来了更严峻的挑战。各国大数据发展战略中,不同国家和地区对“数据开放共享”与“个人信息保护”的侧重点不同,比如欧盟希望通过强制性的统一标准最大限度地保护个人隐私,而美国相对淡化法律的强制约束,更希望调动企业的主动性与自觉性,这种态势为未来全球大数据国际规则的融合发展提出了新难题。同时对大数据企业权利和义务也要进行再平衡,监管太严,将限制企业创新的脚步,但如果放得太宽,在实践中难免又会出现企业对个人隐私大规模侵害的问题。
九是中国大数据产业将迎来高速增长期,产业规模快速增长、市场竞争日趋激烈、大数据应用日益深入、投融资环境愈加完善等。前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2020年我国大数据产业规模增长将突破万亿元,达到10100亿元,同比增长26.3%。我国大数据产业正在从起步阶段步入黄金期,2020年中国有望成为世界第一数据资源大国。
五、大数据发展面临的挑战和存在的问题
我国发展大数据当前还面临下列挑战和问题:
挑战一:数据开放度低,信息孤岛、数据壁垒情况严重,数据整合能力不足。尤其是政府数据不能进行互联互通,大数据共享还差强人意。数据缺少规范和标准,给数据的采集、对接、共享、开发、利用带来困难。
当前,国内经济社会大数据领域比较离散,政府部门之间、企业之间、政府和企业之间由于信息不对称、制度法律不健全、共享渠道缺乏等,导致大量数据存在“不愿开放、不敢开放、不能开放、不会开放”的问题,造就了一个个企业和政府管理部门的数据孤岛,以致无法构建全景的大数据。
挑战二:技术应用创新滞后。我国在新型计算平台、分布式计算架构及大数据处理、分析和呈现方面与国外仍存在较大差距,对开源技术和相关生态系统影响力弱。
挑战三:行业应用不深入,大数据应用水平不高。我国发展大数据具有强劲的应用市场优势,但是目前还存在应用领域不广泛、应用程度不深、认识不到位等问题。互联网、金融和电信三大领域大数据应用占比超过70%,健康医疗领域和交通领域虽然近年不断开发新应用,但行业规模占比仍相对较小,而在其他众多民生领域,大数据应用仍处于浅层次信息化层面,行业发展水平参差不齐。
挑战四:大数据很多时候还停留在表面空谈状态,很多领域都没有很好地运用大数据来解决问题。目前中国的大数据发展很快,国家也提倡发展大数据。然而,很多商业行为将大数据运用得炉火纯青,而在民生方面,政府职能部门对大数据缺乏深入的认识和运用。
随着科技的发展,未来中国要迈向更高的科学技术领域无法离开大数据的建设和发展,只有把大数据的基础和应用领域建设好,中国未来才会和发达国家并驾齐驱,使科技向高精尖方向发展。
挑战五:大数据人才及相关人才缺失。一方面,人才不足限制了大数据产业创新发展的成效。据相关数据披露,未来3~5年中国需要180万大数据人才,但截至目前中国大数据从业人员只有30万左右。另一方面,大数据行业选才的标准也在不断变化,人才跟不上时代的步伐。
在人才培养方面也是如此。结构性、复合型人才的缺乏是制约我国大数据产业发展的重要因素之一。包括与大数据相关的云计算、人工智能、物联网等,同样缺乏专业性的人才。虽然政府也在努力,在高校中增加相关专业课程,但是只有市场驱动才能真正带动人才往大数据方面聚集。
最后,现在成功的大数据解决方案不只是要实现某一方面的技术(如Hadoop等),而且需要把一连串的技术、人和流程糅合到一起,要捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由工具来完成,而有的则需要人来做,关键是这一切都需要无缝集成,使之成为一个闭环、优化、可扩、开放的系统整体。这还只是产品环节,最终要想让大数据系统发挥作用,整个行业系统从上到下都需要树立数据驱动的文化,这样大数据才不仅仅是个产品工具,而且是那个最关键的产品工具。