大数据改变世界
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 大数据的冲击

一股汹涌澎湃的“大数据浪潮”已经以排山倒海之势,迅速推进,不可阻挡。未来的一二十年显然将是由“大数据”推动和引导下的改天换地的智能化时代注:白宫总统科技顾问委员会26位顾问在2010年7月9日给美国总统奥巴马的“Designing a digital future:Federally funded research and development in networking and information technology”报告中,就明确指出:信息技术和大数据将推动和引导智能化时代。

只要回忆一下信息化的快速进程,就不可能怀疑大数据时代的巨大变化。从记忆犹新的信息时代开启,我们就在层出不穷的新生事物面前,目不暇接,以致眼花缭乱……移动电话、个人电脑、光驱、移动硬盘、宽带、互联网、搜索引擎、博客、微博、视频等等,争先恐后,接踵而来;社交网络、电子商务、网络教育、虚拟社区序贯成熟,连绵不断;移动带宽迅速提升,云计算、物联网包罗万象,应用方式如此丰富多彩。更多的传感设备、移动终端接入到网络,开启了以几何级数增长的数据闸门,不断地以更快、更多、更大的规模奔驰而来,既带来史无前例的巨量信息——这些信息都体现为一致性的数字信息,同时也使人类陷入大数据的汪洋大海包围之中,几乎是在一眨眼之间,推动或改变着一切。

每个人都无法避免,同时亦喜亦忧:信息公开揭开了污秽不堪的黑幕,也暴露了难以置信的隐私;无处不在的摄像头既使你享受安全也使你失去自我。一切都暴露在光天化日之下:有时候,我们因此洞察秋毫,极目千里,连月球的飞尘化学成分和火星上的极冰都了如指掌;有时候又因众目睽睽、无处躲藏而惶恐不安;过去,我们因孤陋寡闻而决策错误,现在在大数据的漩涡中,又因资讯太多而无所适从,不知所措……

然而,历史不是突如其来的暴风骤雨,大数据的风帆早已潜伏在人类进步的大潮中酝酿起航!

1.1 大数据前夜的数据探索

1.1.1 大数据概念

大数据一词来源于英文Big data,2012年前,中国一直称为海量数据。在20 世纪80 年代有计算机专家提出过模糊的“大数据”一词,80年代《第三次浪潮》的作者阿尔文·托夫勒(Alvin Toffler)在他这本著名的书中,曾使用了大数据这个词。2012 年初,全球知名的咨询公司麦肯锡(McKinsey)最早使用今天为大家理解的“大数据”概念,一般意义上,大家认为它的数据量巨大,超过PE级别(1015~1018字节),包含结构性数据、半结构性数据和非结构性数据。国际著名的大数据专家布里克·乔什·克拉认为:关于大数据的量是多少目前尚无统一说法,每个客户都有自己的定义,一般在10T(太拉tear)字节到1P(拍它peat)字节(1T=1012,1P=1015)。除了数据量之外,还有种类和速度,用这3 个维度(通常称为3V,即Volume超大、Variety多样、Velocity高速)来描述大数据。也可增加一个维度Value(价值巨大但密度很低),称为4V。速度应用实时,种类为多媒体。大数据处理的应用模式包括搜索(如Google,Yahoo)、社交网站(如Facebook)、移动应用(如app store,云存储)、计算服务(如Google Big Query)、商业智能(如BI→BA)等。

阿尔文·托夫勒

早在1940年代,控制论之父魏纳(Wiener)已开始讨论这样一种机器,它能收集足够多的各种类型信息,生产的、市场的、人的心理的,然后据此确定事情发生的概率。而那时,计算机还没有诞生。

Jim Gray回忆,1969年之前,他在伯克利攻读博士时,就已与一些同事将计算机科学应用于社会问题研究,这也是他后来一直研究的主题之一。他在微软研究院领导的项目名就叫science,很多工作是将微软的各种计算资源开放给其他学科的学术界同行解决那些数据密集型的课题,取得了丰硕的成果。2007年Jim Gray,在美国国家科学研究委员会发表演讲时指出,科学研究已经从几千年前的凭经验、几百年前的靠理论模型、几十年前的计算仿真,进入了第四阶段——数据探索。在此阶段,科学家依靠各种仪器、传感器获取数据,或者通过仿真生成数据,然后用软件进行处理,将得到的信息/知识存储在计算机中,再由科学家借助各种统计和数据工具进行分析和可视化。这基本上是大数据处理的经典定义。

大数据的概念在一年前兴起,但从未有人对这个概念明确定性、定量和定义。尽管这样,我们仍然可以看到,在信息大爆炸的时代,每天以数百万太字节(TB)的新数据的诞生,到从这种海量数据的收集、整理、加工、分析,面对收集来的海量数据,面对每天产生的大数据,从中提取有效信息,产生了大数据的研究开发。

大数据处理技术是很多种技术的某种集合,主要包括了分析技术、内存数据库、Nasal数据库和分布式计算技术。目前,技术上都是以解决传统关系型数据库在处理大数据方面的不足为切入点,且发展迅猛。当然,事物的两面性决定了上述技术不是万能的,关系型数据库40多年的发展也证明了其自身的价值,并且不是轻易被取代的,因此也逐渐出现了相互融合的应用模式。

在大数据处理领域,共性和开源更是起到了至关重要的作用。现代信息技术发展的趋势是开源的,强调共性创造和共同分享。可以看到,在推动现代信息技术的发展上,共性创造模式和开源性技术已成为一股不可忽视的力量,甚至有成为技术发展主流的征兆。这一点给技术相对落后的国家和企业一个巨大的机会,这种趋势客观地把技术先进与落后的差距拉近了,使落后者实现创新和自主的可能性大大增强。

1.1.2 赌博中的科学

人类的发展与对数据的认识分不开。最初,人类接触的都是小数据,随着人类活动能力的提高,数据量越来越大,然而,人类处理数据的能力越来越力不从心,如何从大数据中经济节约地找到有用的数据就成为一个紧迫的任务。

最具戏剧性的是,应该说,贪婪是巨大的动力,赌博的需要给人类提出了数据分析的要求。在希罗多德(Herodotos,约前484年~约前425年,古希腊历史学家,生于小亚细亚的哈利卡纳苏斯城)的巨著《历史》中记录到,早在公元前1500年,埃及人就有一种游戏,人们经常聚集在一起掷骰子,作为赌博的工具。以后,又发明了六面立方体的骰子,在每个面上刻上数字。

希罗多德

到17世纪,法国贵族德·梅勒(De Cetin)在骰子赌博中,想要知道如果赌博双方各出30个金币赌资,依靠对胜负的预测进行分配,要用什么样的比例分配才合理?德·梅勒向当时法国最具声望的数学家帕斯卡(Blaise Pascal,1623~1662年,是法国数学家、物理学家、思想家)请教。

帕斯卡就此与另一位数学家费尔马(Pierre de Fermat,1601~1665年)通信,就这样,产生了概率论。

帕斯卡

赌博的目的是赢钱,每一个赌徒都希望下一次是赢钱。而事实上,因为每一次掷骰子都是随机事件,好像是靠运气,每个人的“运气”都独立于他人的“运气”,并不因为前一个人中奖或没有中奖你就多了或少了中奖的机会。因此,对每一个赌徒来说都是机会平等的,都有同样巨大的吸引力。虽然赌场当时也不知道概率的法则支配着输赢,但赌场靠的是一个巨大的赌徒人次,如果赌徒不停地赌下去,就会形成一个巨大的赌博行为的大数据基数,每一次随机得到的输赢就会累积成一个稳定的统计数据。只要赌场背后设计好赔率,无论赌客每一次下注是输是赢,都是随机事件,以概率的观点赌场因为掌握着“大数据”的秘密,根据事先设计好的赔率,赌场总是稳赢不输的,概率总是站在赌场一边。

例如抛硬币,即使你前面100个人抛硬币,并且没有一个人抛出正面,现在轮到你抛,从概率说,似乎是你的可能性很大了,但实际上你与任何前后的抛硬币者机会一样。每个人抛的那一次,都“独立”于其余的人。

赌场往往利用这一点来引诱赌徒,在告示上表明已经有多少赌徒赌过,没有中,好像你的机会到了,而实际上,大家彼此彼此。

概率论是人类掌握确定性的小数据研究方法以后,在面临着越来越巨大的大数据的时候,又受到技术手段限制的时代所创造出来的研究方法。它研究的是统计规律问题,也可以说是在大数据基础上挖掘小数据。正如19世纪法国著名数学家拉普拉斯(Pierre Sismon Laplace,1749~1827年)所说:“我们所掌握的所有知识都是不确定的,只有一小部分我们能确定地了解……对于生活中的大部分,最重要的问题实际上只是概率问题。”

戈塞特

1899年,英国统计学家威廉·希利·戈塞特(William Sealy Gusset,1876~1937年,小样本理论研究的先驱,是一位化学家、数学家与统计学家)在都柏林的一家酿酒公司担任酿造化学技师,他很满意这份工作,因为他可以一边喝啤酒一边搞科研。他把自己的专业与酿造化学结合起来。然而,由于做实验用的麦子数量有限,无法采用大样本观察,戈塞特想了一个办法,利用小样本进行分析。这就存在两个问题,一是如何解决误差?二是如何得到较为可靠的结果?经过反复研究实验,戈塞特建立了小样本理论,1908年戈塞特在《生物计量学》杂志上发表了“平均数的概率误差”。他很谦虚地以“学生”(student)为笔名,由此确立了“学生t检验”的基础。

1.1.3 阿基米德与国王的对弈

阿基米德(Archimedes,前287~前212年),出生在叙拉古的贵族家庭,父亲是位天文学家。阿基米德从小受到良好的家庭教养,11岁就被送到当时希腊文化中心的亚历山大城去学习。在父亲和师长的影响下,阿斯米德从小热爱学习,善于思考。

阿基米德

有一次阿基米德与国王下棋,国王输了,国王问阿基米德要什么奖赏?阿基米德对国王说:“我只要在棋盘上第一格放一粒米,第二格放二粒,第三格放四粒,第四格放八粒……按照这个方法放满整个棋盘就行。我的要求不高,只是您可能做不到。”

国王哈哈大笑,“这有什么难的!”他满口答应,立即叫大臣去办。

大臣在第一个棋盘格子里放上一粒米,第二个格子放上两粒米,第三个格子放上四粒米……人们开始惊叹起来,如此放下去,到第64个格子的时候,即使将国库中所有米都给放上,也不够,即使一粒米只有一克重,也需要几十万亿吨大米才够。

阿基米德不仅下棋赢了国王,而且用“巨大数据”再次赢了国王。这一现象被爱因斯坦(Albert Einstein,1879~1955年)称之为世界第八大奇迹。

1.1.4 神秘的“亚细亚社会”与中国增长之谜

对于西方世界来说,在100 多年之前,东方世界还是一个蒙上神秘色彩的谜一样的世界。1859年1月,卡尔·马克思在《政治经济学批判》序言中,将其归结为“亚细亚生产方式”的概念:“大体说来,亚细亚的、古代的、封建的和现代资产阶级的生产方式可以看做是社会经济形态演进的几个时代。”注:卡尔·马克思.政治经济学批判 序言.选自马克思 恩格斯选集 第2卷.北京:人民出版社,1972。

第一个以西方科学眼光来研究这一问题是李约瑟(Joseph Needham),一个与中国姑娘热恋的英国学者。

晚年的李约瑟与鲁桂珍

1937年,三十出头的鲁桂珍,风尘仆仆地来到剑桥。这位南京药商的女儿,已经是一位在生物化学领域的新秀,她久已仰慕的生物化学界的一对夫妻,是李约瑟和他的妻子多萝西·尼达姆,这次到剑桥来就是专门拜访他们,并将与他们一起共事。当鲁桂珍见到身材修长,英俊潇洒的生物化学家李约瑟的时候,她有些吃惊,原来她久仰的导师不是满脸沧桑的老人,而是风度翩翩的年轻人。她立即被他英俊的面庞和粗犷的声音震慑了,而李约瑟也对突然出现在眼前的这位温文尔雅的东方才女,有些不知所措。也就是在这一瞬间,月下老人的红线在东西方文明两岸搭起了桥梁,鲁桂珍回忆说,“李约瑟在我们两个文明之间架起了一座桥梁,而我就是支撑这座拱桥的支柱。”

李约瑟的妻子多萝西·尼达姆以女人的敏感很快察觉了丈夫的变化,但是她没有抱怨,而是默默地接受了现实。三个人从此心照不宣地以朋友身份相处了数十年,在科学研究和人生的道路上携手共进。

几个月后,一个温暖湿润的夜晚,东西方的文化隔阂被丘比特之箭射穿了,在剑桥中心凯思学院一间舒适的房间里,李约瑟与鲁桂珍第一次渡过了爱河的激浪。李约瑟轻轻地抚摸着鲁桂珍温柔的秀发,点燃烟,微笑着问道,“你能告诉我这个东西的名称用汉语怎样写吗?”从这天开始,李约瑟在爱情的指引下,进入了一个完全陌生的世界,他很快就被博大精深的华夏文明迷住了,从此把大半生的学术生涯都献给了中国古代科学技术发展史的研究与著述。1954年,李约瑟出版了《中国科学技术史》第一卷,立即轰动了西方科学史界。这是有史以来的第一部详细考察东方古老文明的鸿篇巨制,它以浩瀚的史料、无可置疑的数据,系统地阐明了五千年来中国科学技术的发展进程。

李约瑟让世界相信,“在现代科学技术登场前十多个世纪,中国在科技和知识方面的积累远胜于西方”。西方认为“中国古代只有人文科学,没有自然科学”,从而忽视中国古代科学技术对世界近代文明所作的贡献,“这种总的概念是错误的,是误导西方人民的。”李约瑟高度评价了中国古代科学技术的发展:“西方人似乎通常认为中国有一个纯粹的农业与艺术文明,其实不然。中国人对世界科学技术也做出了重大贡献。他们在全世界首先发明了磁性指南针、炸药、造纸术和印刷术,是最先发明冶炼铸铁的国家。在他们的传统药物中,在今天仍有几种具有巨大的价值和用处。”

李约瑟在高度赞扬中国古代科学技术伟大成就的同时,又十分遗憾地问道:“……中国在这方面的贡献,使人感到西方过去被误导了。中国人在科学实验发明上的确非常伟大。问题是:它们为什么没有继续上升到理论,构筑起其理论体系,或如西方那样,发展出现代科学。”“尽管中国古代对人类科技发展作出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生?为什么公元16世纪之前,在将人类的自然知识应用于实用目的方面,中国比较西方更为有效,但以后的中国科技却停滞不前?”

这就是著名的“李约瑟之谜”,即为什么中国科技水平和经济发展在历史上一直遥遥领先于其他文明,而近代又落后于其他文明?与此相关还有所谓“马克斯·韦伯(Max Weber)质疑”,即为什么工业革命发生在英国,而没有发生在曾经孕育过资本主义胚胎的中国?

李约瑟本人并没有解开“李约瑟难题”,直到他告别人世。1987年12月22日,已经改名叫李大斐的李约瑟妻子多萝西·尼达姆在家中平静地去世,享年92岁。差不多两年后,李约瑟和鲁桂珍携手步入了婚姻的殿堂,他们在互相依恋中等待了整整51年后,终于完成了名副其实的婚姻。然而这段婚姻仅仅维持了800余天的时间,1991年11月28日,鲁桂珍在家中平静地去世了,享年87 岁。弥留之际,李约瑟一直握着她的手,在怀念和孤独中度过了最后几年,1995年3月,95岁的“世纪老人”李约瑟追随爱妻而去。

从此,为了解开李约瑟难题,人们提出了多种解释,从描述性的解释到深层次的理论解答,对社会、经济、文化、宗教、政治等多种因素分别加以阐释,但都难以让人信服。

从西方世界的眼光来看,中国经济社会发展历史充满着不可思议的谜。从远古以来,直到19世纪上半叶,她还是领先于世界其他地区的文明之邦。但是,自1840年以后,中国渐渐落伍了,不仅落后于西方世界,而且在甲午战争中,甚至被深受华夏文明影响,而后变法维新逐步强盛起来的日本打败,此后,经过种种劫难、苦斗,直到改革开放之前,中国大陆甚至落后于直接发源于华夏文明的韩国、新加坡,以至迫使中国打开开放之门。突然,在20世纪80年代,中国通过改革,进入了持续三十多年的高速增长,即使遭受到2008年以来世界金融危机的冲击,仍然没有停止增长,从其趋势来看,显然将在2020年左右,超越美国成为世界第一大经济体。

人们对于中国的停滞与崛起原因十分困惑,对她的增长趋势更加难以判定。

近代中国在西方列强的打击和启发下,曾发生过多次变革,中国的目标是鲜明的,赶上西方、超过西方。然而,从实际来看,如洪秀全,洪仁轩举着基督教幡儿的太平天国起义;康有为,梁启超仿效日本的维新运动;孙中山的学习西方的资产阶级革命;毛泽东同样从西方和俄罗斯引进了斯大林式的社会主义;直到现在,从邓小平启动至今还在继续的,目的仍然是引导中国走向世界和现代化的中国经济体制改革运动……这些充满着磨难、艰险、曲折和牺牲的规模巨大、波澜壮阔的历史运动,继续引起世界的种种猜测。为了解开这些历史之谜,东西方学者们进行了艰苦的探索,各种猜想或假说纷纷出台,但众说纷纭,难以统一。

1.1.5 以大数据名义的答卷

李约瑟问题其实是涉及经济增长因素的普遍问题,只是蒙上了东方古国的神秘色彩而已。长期以来,人们不能理解是什么因素导致经济增长加速或减弱?为什么东西方各国增长速度不同?为什么各国人均收入出现如此大的差距?

终于,到20世纪末,国际上权威的经济合作与发展组织(OECD)组织一流专家,运用“用数据说话”的方法,对世界各国经济在200 年以来的发展状况进行了有史以来最大空间和时间跨度的全面的定量比较。

该项目由安格斯·麦迪森(Angus Maddison)主持,于1996年完成,写出了《世界经济两百年回顾》,立刻在西方世界引起轰动。报告立即被译成各国文字,畅销于世界,成为各国政治家、经济学家、理论界和实业界人士人手一册的案头书。一位著名的诺贝尔经济学奖获得者说道,“经济学家们都将死去,唯有这本书是不朽的!”

安格斯·麦迪森利用了迄今为止人类拥有的全部发展数据;不仅如此,它还是以“透明的方式”,即用人人都可检验、重复的程序,真实地描述了从1820年到1992年这一时期的整个世界经济。因此,这是第一本系统地进行全球经济定量大比较的巨著,是人类在经济方面解释过去、指导现在、预见未来的钥匙。

安格斯·麦迪森是测量国民生产总值的生产法的创始人,他在解释世界经济增长方面作出了巨大的贡献。他就世界经济增长表述了最广泛、最深刻的观点,这些观点反映了一个毕生从事世界各国经济发展比较研究的学者的丰富阅历和深刻观察,这种生涯使他从20世纪50年代起就获得了OEEC(欧洲经济合作组织,1961年后改为OECD)首席经济学家的高级职位,并蜚声世界。

从长期来看,麦迪森认为决定经济增长的主要因素有四个:一是技术进步;二是物力资本的积累;三是人力资本的积累,即人的技能、教育、组织能力的改进;四是单个国家经济通过商品和劳务的贸易、投资、知识分子和企业家相互作用更加密切地走向一体化。还有三个其他因素被认为也发挥了重要作用,这就是规模经济、结构改变和自然资源的相对稀缺或丰富。所有这些因果联系都是互相作用,互相影响的。

麦迪森没有直接回答中国增长之谜,但是对中国的发展,他一直倾注了满腔热情,1997年,麦迪森带着他的著作注:安格斯·麦迪森.世界经济两百年回顾.李德伟译.北京:改革出版社,1996年来到中国,委托中国经济学家李德伟翻译。就中国经济增长的若干问题,李德伟与安格斯·麦迪森进行了对话。

在翻译麦迪森著作的时候,中国正面临着东亚金融危机的冲击,国内外经济学家纷纷预测中国将是下一个倒下的亚洲国家。然而,在麦迪森研究的启示下,李德伟根据自己建立的“大国封闭模型”,对中国经济增长的大量数据进行了测算,并发表了关于中国增长的预见:中国经济不仅不会崩溃,而且将在改革的推进下,继续增长二十多年,在2020年,GDP总量将超过美国成为世界第一大经济体。

这是第一次使用大数据预测中国增长趋势的尝试,直到十多年后,世界各国经济学家才纷纷向这一预见靠拢。

托夫勒曾预言,在信息社会,发达国家与发展中国家可以在同一起点赛跑。事实正是如此,在20世纪90年代中期,当美国提出“信息高速公路计划”时,中国并没有置身世外,一些敏感的中国学者同时感受到了新世纪的“第一推动”。

1994年,李德伟应国家工商局党组书记杨培青的邀请,到该局组建了“国家工商局市场经济研究中心”,开始研究“中国市场监测指标信息系统”。仅仅六七年后,由赴美归来的学生创办的亚信公司,豪情满怀地建起了中国互联网的骨干网。

1998年,李德伟到广西柳州任职副市长,自治区领导正在为甘蔗种植与制糖业深陷连年亏损困境而忧心忡忡。李德伟想到了通过市场监测指标信息系统,采用大数据方式,挖掘数据,寻找到问题的症结是“糖精滥用”。于是,广西自治区联合国家有关部委国家工商局、国家轻工局和中国消费者协会以及中国糖业协会向中央提出“限制糖精滥用,启动食糖市场”的报告,这一建议得到国务院领导的首肯并作出批示,全国14家糖精厂关闭了9家,由此,中国甘蔗种植业与食糖制造业一举扭亏为盈,成为甜蜜的事业。

然而,先驱的创新可以在世界范围内进行,但要成为实践运动,还必须“连接地气”、“教化民众”。而阻力迫使人们冷静反思:为什么同样的探索在美国能使微软、谷歌脱颖而出,而在中国往往成为遭到枪打的出头鸟……

1.2 技术革命开创了大数据时代

如果说数据分析的潜能在大数据到来之前已经在聚集,那么,使大数据登台亮相的正是飞速发展的技术进步和革命。

农业社会—工业社会—信息社会注:姜奇平.新文明概略.北京:商务印书馆,2012发展的几次重大浪潮,都对人类历史进程留下了深刻的印记。特别是最近60年人类迈入信息社会以来,伴随着技术的进步,从国际商用机器公司(IBM)的第一台电脑诞生,到移动通信、互联网,再到今天的大数据,技术革命引发的社会进步越来越明显,也越来越急不可待。

图1-1 历次信息技术革命都给人类社会带来巨大进步

1.2.1 信息技术是推动进步的新动力

20世纪80年代美国阿尔文·托夫勒的《第三次浪潮》给正经历改革开放的中国人带来了巨大冲击,一个全新的信息社会呈现在我们面前。随着电话、电脑、互联网的迅速普及,人们对信息社会的认识越来越清晰,特别是20 世纪末美国率先提出的“信息高速公路计划”,将全球信息化水平推进到一个新的高度。与各种硬件产品的创新层出不穷相呼应,软件产业也得到了突飞猛进的迅猛发展,世界社会和经济在技术创新和发展的推进下也呈现出革命性的景象。

我们从十几年前的IMF 2001年的统计中看出,1995~2000年新技术特别是信息技术每年对美国经济的贡献率达到1.86%,已经可以看到信息技术对社会经济的深刻影响(见表1-1)。

表1-1 新技术对美国经济增长的贡献率

从表1-1中我们可以看到:

(1)在工业革命的三次浪潮中,信息技术对经济社会的冲击是最大的,无论是对金融的拉动,还是在技术进步上的渗透方面都是史无前例的,综合反映到对社会经济发展的贡献率是前几次工业化进程都无法比拟的。

(2)年代距离我们越近,也是信息技术越来越完善的时候,信息技术对金融、实体企业的技术和社会经济综合贡献率就越高。

(3)进入信息社会的前期,技术进步越来越快,即使是摩尔定律(Moore′s Law)注:摩尔定律是由英特尔(Intel)公司创始人之一戈登·摩尔(Gordon Moore)于1965年提出来的。其内容为:计算机硬件技术使用的集成电路芯片上可容纳的晶体管数目,平均约18个月便会增加一倍,而成本却减少一半。这一定律揭示了信息技术进步的速度。在今天也已经显得落后,新技术、新产品更新的速度令人目不暇接,其数量、速度和效率的量级越来越高。

(4)信息共享和学科交叉、融合、渗透更加活跃,行业、部门融合、交流更加频繁。

我们在前面已经描述过,随着越来越多的信息被收集和存储起来,大数据正呈爆炸式增长。MGI曾估计,2010年全球的企业在磁盘上存储了超过7EB(Exabyte,艾[可萨]字节,1EB=1018字节)的新数据,而消费者则在个人电脑和笔记本(以及移动设备)等设备上存储了超过6EB的新数据。国际数据公司(IDC)注:国际数据公司(IDC)是国际上著名的电信行业咨询、风险投资公司。预计,2011年的数据总量达到1.8万亿GB(giga byte,吉[咖]字节,1GB=109字节),无论是1.8万亿GB,还是7EB,对这些海量数据的分析已经成为一个非常重要而且十分紧迫的需求。

国内的研究机构“计世资讯”研究表明,在企业用户中,已经有67.5%的用户认可云服务模式,并开始采用云计算服务,或者在企业内部部分实现云平台共享。未来以政府、电信、教育、医疗、金融、石油石化和电力等行业为重点的大数据应用将直接拉动整个社会的应用规模,市场规模也将从2010年的167.31亿元增长到2013年的1174.12亿元,年均复合增长率达到91.5%。投资银行JMP证券分析师Greg McDowell则表示,大数据工具市场预计将在10年内由2012年的90亿美元增长至860亿美元。到2020年,企业在大数据工具方面的投资将占整体企业信息技术开支的11%。另外,国外的大数据趋势报告《解读大数据的商业价值和战略意义》注:潘越.解读大数据的商业价值和战略意义.人大经济论坛,2013年也指出,超过33%的受访企业已经或者计划部署大数据项目。

这个由美国发动起来的新计划,已经在全球迅速扩展开来。

2011年,国际数据公司Digital Universe报告说,我们已经进入了“大数据时代”,数据增长的速度已经超过了摩尔定律。这种趋势表明企业处理数据模式的转变,即隔离的孤岛正在被大型集群服务器取代,这种服务器集群将数据与计算资源保存在一起。

无须引述海外的事实,中国这个已经融入世界的文明古国也与世界在同步起跑。

当人们为扑面而来的大数据热浪惊得目瞪口呆的时候,一股冷峻而严肃的技术革命正在静悄悄地向前推进,不断地显示出大数据技术在人类文明发展中无孔不入的渗透性影响。有的时候,大数据有如惊涛拍岸,来势汹汹,让人难以抗拒;有的时候,在你全然不知不觉中,她已悄然而至,拥抱着你,吞噬着你,融化着你,迫使你欣然接受。

数据分析的发展经历了一个从数据到知识的转变过程,这种转变是建立在一系列新的网络计算方法的开发上。

——存储管理实现了多维数据的联合分析。

——数据仓库解决了多个分立系统的数据整合、集成。

——联机分析实现了数据的存储管理和快速组织。

——数据挖掘实现了探索性分析,自动发现隐藏在数据中的规律、模式和有价值的信息。

——商业智能综合运用数据仓库、联机分析和数据挖掘,实现商业决策。

——大数据分析实现了非结构化数据、海量数据、实时数据的分析。

——人工智能实现了自然语言处理、模式识别和机器学习。

对照图1-2 两张来自美国卫星不同时代传回地球的照片,我们会惊叹它们的不同,这就是大数据技术在非结构性数据方面的巨大进步。

图1-2 不同时代美国卫星传回的照片

图1-3 是一张不同光谱的地球表面图,它是由美国“陆地卫星5 号”专题制图仪拍摄的,既可以拍摄自然色图像,也可以拍摄光谱中我们通常看不到的部分光图像。我们需要通过大数据技术进行分析、比对,以获得我们对事物的更为真实的认识。

图1-3 不同光谱的地球表面图

1.2.2 谷歌与Hadoop

谈到大数据处理技术的发展,不能不提谷歌,而解析谷歌就必须了解Hadoop注:Hadoop项目是Apache(阿帕奇Web服务器软件)开源项目,它最初起源于雅虎工程师Doug Cutting创建的搜索引擎索引项目Nutch,而后演变成具有高可扩展性的分布式应用。的技术思路。

1998年,谷歌推出测试版搜索引擎,这时候在这一领域占主导地位的是雅虎(Yahoo)公司,其他竞争者还包括infoseekLycos等。但谷歌似乎是初生牛犊不怕虎,无所畏惧,披荆斩棘,最终所向披靡,仅仅在短短两年内,就后来居上,一跃而成为主导搜索引擎的供应商。

谷歌为何有如此威力?直到2003年,谷歌发布了一份关于MapReduce的文件,我们才有幸窥见到谷歌的后端架构的秘密。MapReduce的功能在于以渐进的方式来分析数据,而在过去,我们不得不进行复杂的数据转换,或者采用其他数据预处理,或提前创建适当的模式或整合数据。

谷歌的架构显示了该公司如何能够索引更多数据,并以更快的速度获得搜索结果。这一点特别重要,如果你不能比所有其他竞争对手更有效、更具成本效益地获取这些结果,那么你也就不能取胜。

谷歌的方法是将复杂的数据分析任务分成简单的子任务,这些子任务在并行的服务器中执行,单独进程被用于映射Map这些数据,然后将其缩小到中期或最终结果。这种MapReduce框架最终通过Apache(阿帕奇)的Hadoop供企业使用。

考察Hadoop的简史注:见http//www.hadoop.apache.org。,我们发现对于大数据开发技术有着非常重要意义的检索软件来源于一个偶然的启发。2003年,雅虎工程师Doug Cutting阅读了谷歌的文件,随后开发了基于Java的MapReduce,并将其命名为Hadoop。三年后,Hadoop成为Apache软件基金会Lucene(一种流行的全文检索库)的子项目,再过两年,跃居成为顶级Apache项目。

从本质上讲,Hadoop提供了对大型IBM计算机集群间的捕捉、组织、存储、搜索、共享、分析和可视化不同数据源(结构化、半结构化和非结构化),并能够从几十台服务器扩展到上千台服务器,每台服务器都提供本地计算和存储。

Hadoop包含两个基本组成部分:首先是作为主要存储系统的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System),它复制和分发源数据块到服务器集群的计算节点,由一个或多个应用程序进行分析;其次是MapReduce创建了一个软件框架和编程模型,用于编写能够并行处理大量分布式数据的应用程序。

特别值得注意的是,Apache Hadoop的开源性质创建了一个开放的生态系统,使其功能、性能、可靠性和易用性都能够不断进步。

科学研究的历史表明:最简单的往往是最复杂的,而当错综复杂的表象世界通过简单的数学公式得到表达的时候,深藏不漏的事物本质往往就能一目了然。事实上,简单的公式不仅能够解释复杂的自然现象,而且能够理解难以捉摸的人类行为,这也是为什么Hadoop得到普及的原因。

在计算技术研发过程中,科学家们发现,相对简单的算法可以适用于大规模数据集,并能产生惊人的结果,其中一个例子就是实地场景修复技术。实地场景修复技术使用一个算法来消除已知实地场景图片上的某物(例如汽车),然后从成千上万的图片资料库中寻找合适的照片进行“修补”,当图片资料库的照片在数百万量级以内时,该算法一直处于不佳状态;而当照片达到数以亿计量级以上时,这种简单的算法表现却极为出色。这就是谷歌地图和谷歌街景何以让世界瞩目的根本原因。寻找模式及“修补”技术是目前许多数据分析应用程序面临的共同主题。

数据分析面临的另一个固有复杂性是:半结构化数据与非结构化数据的增加。就非结构化数据(例如日志文件、社交媒体、视频等)而言,其规模和重要性同时在增加,有些结构化数据在经过一些变化后也失去了结构。问题是,传统分析技术在产生结果前需要对非结构化和半结构化数据进行大量预处理,如果预处理存在某种缺陷的话,产生的结果很可能是错误的。

Hadoop的价值就在于,它采用简单算法来分析原始形式的非结构化、半结构化和结构化数据并能够导致有意义结果。Hadoop这一独特能力使它与其他方法区别开来,在大数据处理方面至少是“暂”领风骚。

Hadoop不仅提供卓越的数据分析功能和结果,还比传统数据分析工具更具成本效益。但随着数据集发展为大数据,这种回报会递减。

然而,形成鲜明对比的是,Hadoop可以线性扩展,这是卓有成效而且符合成本效益的数据分析的关键因素。因为,随着数据集的增长,传统数据分析环境规模呈指数增长,为获取洞察力需要投入更多的额外费用。正是这一点最终让人望而却步,而运用Hadoop,服务器集群能够随着数据集数量和规模的增长直接产生附加存储,从而线性地扩展规模。

Hadoop的这些优势是它在基于Web的企业和数据密集型企业快速普及的主要原因。

开源社区创造了一个充满活力的生态系统,使Hadoop不断完善。现在,越来越多的公司提供基于开源Hadoop的商业产品,而这些商业性Hadoop产品的推出反过来又进一步推动了Hadoop的普及。

Hadoop是一个改变游戏规则的技术,随着企业级商业Hadoop产品的推出,Hadoop本身也在发生改变。Hadoop能够让企业通过模式转变所提供的洞察力优势来获得显著的竞争优势,数据分析模式的转变为企业带来了真正的机会。

谷歌和Hadoop这两个有着同一血缘关系的公司无疑是在大数据获取、处理和分析方面具有举足轻重地位的代表性公司,但是,在这两个明星公司背后还有无数开发大数据技术的公司,它们取得的惊人技术同样在其专业领域得到高度的认可,它们在大数据兴起过程中发挥的作用也是不可缺少的。这是一个信息化的交响曲,正如阿尔文·托夫勒在《第三次浪潮》中描述的一样:一个华彩乐章已经拉开序幕,动人心弦的高潮已经来临!

1.2.3 斯坦福再次捷足先登

预言被验证的速度是惊人的,就在美国宣布大数据研究和发展计划的10个月后的2013年1月30日,美国斯坦福大学宣布:世界最大超级计算机利用百万处理器模拟计算成功。斯坦福大学的研究人员利用世界上最大的超级计算机运行了一个应用程序,通过100 多万个中央处理器处理了试验性喷气式发动机所产生的噪音量。这个成果表明,在大数据处理技术方面,惊人的突破再次实现。信息处理技术的这一个激动人心的重大突破,使美国在前沿信息技术上与其他国家又拉开了20~30年的距离。

这是发生在我们刚刚送走玛雅人的“世界末日”,迎来“新世界”开始的第一个月。在此以前,谷歌创造过二十万级(个)中央处理器联合计算的记录,而百万级(个)中央处理器联合计算的突破是人类信息技术发展的一个划时代的重要阶段,它意味着其他量级的突破已指日可待。

位于加利福尼亚州旧金山东郊约40英里的,美国劳伦斯·利弗莫尔国家实验室(LLNL)是一个功勋卓著、成就斐然的应用科学实验室,隶属于美国能源部(DOE)的国家核安全局(NNSA),自1952年创建以来,一直由加利福尼亚大学管理。

斯坦福大学的约瑟夫·尼科尔斯及其研究小组是第一个利用劳伦斯·利弗莫尔国家实验室的“红杉IBM蓝基因/Q型”超级计算机(“红杉”超级计算机总共包括150 多万个中央处理器)运行活动代码的研究团队。该研究小组利用的中央处理器有100 多万个,他们模拟了试验性喷气式发动机所产生的噪音量。参见图1-4。

从技术上看,超级计算机的工作原理并不复杂,它只是把非常大的问题分解为较小的问题,然后把这些小问题分布在许多机器和许多处理器核上。在一般情况下,增加处理器核能够使运算速度变得更快,但是,这样做的同时大大增加了运算的复杂程度。在实际运算过程中,处理器与处理器之间的连接所引起的困难和问题,在一定程度上,会使运算变得更慢。

图片来源:劳伦斯·利弗莫尔国家实验室

图1-4 “红杉IBM蓝基因/Q型”超级计算机

斯坦福大学“红杉”的中央处理器集群采用了新的处理架构:利用一种新方式——“5D Torus”互连技术——将中央处理器排列起来接连成网。每一个中央处理器直接跟10个其他中央处理器相连,这样就能够以较少的等待时间连接较远的处理器。当然,其中有些处理器也有第11个连接,该连接进入了整个系统的输入/输出中央通道,这些特殊的处理器负责从各处理器收集信号,然后将处理结果写在磁盘上。这样可以使绝大多数通信在处理器与处理器之间进行,不必通过磁盘。

研究小组希望这些模拟结果将会有助于制造噪音更小的喷气式发动机。在帕维兹·莫因教授和桑吉瓦·莱勒教授的指导下,斯坦福大学的研究小组一直在跟俄亥俄州国家航空航天管理局格伦研究中心和美国海军航空系统司令部进行合作,他们试图在不用制造真实样机的情况下,来预测一台试验性发动机的噪音将会有多大。实际操作起来比现实理想模型更难。尼科尔斯解释说,因为,一台发动机所产生的声波能量不到其总能量的百分之一,为了准确模拟一台发动机将会产生的噪音,运算必须具备极高的精度。

研究小组研究所用的代码最初是由以前的斯坦福大学高级研究助理弗兰克·哈姆开发的,该代码使斯坦福大学的其他研究人员模拟出整个机翼总气流量,不仅如此,他们还模拟了几倍于音速情况下的飞机推进系统——超音速冲压喷射装置。

这个实验运用的数据是非常庞大的,而且在参数设定上也是惊人的,没有大数据技术的支持根本无法完成这样浩大的工程。

1.2.4 大数据呼啸而来

光阴似箭,弹指瞬间。短短的十多年过去了,历史已被快速地翻到新的一页,以数据为观察指标,人类已经进入令人瞠目结舌的大数据时代。一天等于两千年,说的是今天一天的数据流量相当于过去两千年产生的数据流量总和!然而,就在我们说话的瞬间,数据又增加了很多。

我们已经无法精确地计算今天全世界一天产生的数据量,粗略地说,就是过去几千年产生的数据量总和,而如果没有上述码型和各种协议文本的快速转换,各种非结构性数据的采集和传输根本无法想象。

极目四望,现代社会已经离不开信息技术和设备,上至轨道卫星,下到隧道矿井,无论是机场车站、交通枢纽、电站水库、超级市场、仓储库房、会议厅与办公室……到处传感器密布,每个人都是数据源,每日每时都在生成大量的数据,传递和存储着海量数据。大数据无时不刻地包围着你,人人无法逃遁,而且都能感觉得到,因为我们生活在一个丰富多彩信息冲击的社会中,有46亿全球移动电话用户和20亿人访问互联网。

来自不同口径的估计异口同声地描绘出大数据冲击的巨大力量。据思科(Cisco)公司预计,到2013 年,在互联网上流动的流量将达到每年667EB注:EB是信息量比特的一个量度单位,比特是信息量单位,是由英文bit音译而来。二进制数的一位所包含的信息就是1比特,如二进制数0100就是4比特;而8比特为一个字节(Byte),1EB=1018字节。信息量的量度单位有MB,GB,TB,PB,EB,ZB,YB——均以1000倍累进。字节。另据最新报道,网上数据流量比上年的增长在2012年底已经达到100%,按照这种发展趋势,到2015年年均增长将超过100%。另一项来自IDC的统计数据表明,2011年全球被创建和复制的数据总量为1.8ZB(Zotta Byte,泽[它]字节,1ZB=1021字节),这一量级远远超过人类有史以来所有印刷材料的数据总量,约200PB(Peta Byte,拍[它]字节,1PB=1015字节)注:引自The 2011 Digital Universe study: Extracting Value from chaos. International Data Corporation and EMC,June 2011.

根据一项由国际数据公司(IDC)和EMC公司注:EMC是国际著名的IT软件和数据分析工具开发公司。2012年5月22日在美国拉斯维加斯召开新产品发布会,前EMC董事长、总裁兼首席执行官乔·图斯发表主旨演讲的主会场,呈现一副“数据星球大战”的氛围,200多米长的环形屏幕被装扮成群星荟萃的宇宙空间。乔·图斯出其不意地搭乘“宇宙飞船”穿越到舞台,开宗明义“大数据时代已经到来。”他进一步指出,大数据已不仅停留于概念,数据大爆炸催生了社会各界对数据分析的需求,“数据分析将成为下一个杀手级应用,也就是要从大数据中获得商业价值。”于2007年提供的一份有关“数字宇宙”的报告中表示,当时的世界数字内容总量是1610亿吉字节(GB)。公司赞助的最新研究表明,由于手机和电脑用户还在不断激增,这个数字宇宙的规模预计能依照摩尔定律,在未来18个月内翻番。

从另一方面看,非结构化注:结构化数据是指行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据是指相对于行数据,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。HTML文档就属于半结构化数据,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。的大数据在近几年得到了更为广泛的应用。可视化的大型文件在数字传输中占据了很大的比例。据IDC的统计,在2011年新增加的1.8ZB数据中,图片、视频和音乐占了75%。尽管全球经济还处在衰退之中,但衰退的经济一点也没有削弱可视化终端对个人数字创造活动的刺激,排山倒海的大数据浪潮仍然汹涌袭来。

非结构化数据与结构化数据增长的比较,参见图1-5。

图1-5 非结构化数据与结构化数据增长的比较

毋庸置疑,这些数据提供了世界万象和人生百态的极其多样化的信息。在浩瀚的数据海洋中,约70%的信息是由个人产生的,其中包括电话、电子邮件、照片、网上银行交易,或者包括脸谱(Facebook)、推特(Twitter)在内的社交网站上的发贴。正如EMC咨询公司总经理麦克·奥腾朵夫(Mike Altendorf)说“照相手机之类的设备以及社交网站之类的Web 2.0服务,已造就了一个数字内容储存者的王国。”

由于2008年开始的全球金融危机,各国政府缩减开支,加大对银行金融系统的调控,减少出差和集中会议,加大视频会议和各种无纸化办公,数字存储需求越发增长。必须存档的数字化信息量占整个产生的信息化数字存储量的份额,从2011年的25%增长到2012年的35%。

进入21世纪仅仅十多年,数据已如脱缰野马汹涌来袭,当我们为GB和TB这样的数据规模感到已经足够“大”以致于不可想象的时候,接踵而来的是令人望而生畏的PB,EB,ZB,…,NB,我们已经不可挽回地陷入大数据的汪洋大海中,但所有人还在有意无意地以更大、更快和更复杂的方式制造数据和分享数据。

有人统计过,过去3年新增的数据量比以往4万年积累的还多。2010年全球数据量已达到1.2ZB,年增长50%,2013年10分钟的信息总量已经达到1.8ZB注:引自《大数据 大价值、大机遇、大变革》,李志刚主编.北京:电子工业出版社,2012。而从国际数据公司IDC/EMC的研究报告获悉,支持这个数字世界正常运作的计算机、网络及储存设施总计成本为6 万亿美元左右。再加上医疗设备、娱乐及内容制作相关成本,总计开支比这个数字(即6万亿美元)的一倍还多。

1.3 大数据改变世界

一个新的社会经济大发展的革命时代即将到来!

海量增长的大数据已经像“洪流”一样,奔腾在社会、政治、经济的各个领域;而且,随着信息技术的普及和进步,大数据不仅会继续在这些领域翻腾,还会产生新的支流,进一步汇聚成江河湖海,推动数据海洋的交汇、融合。

人人都在谈论数据,人人都无法回避数据。在只有内行才能看懂的专业数据基础上,各种生动活泼的涉及生产、生活的数据,如GDP、CPI、股市、期货、汇率、油价、金价,也在同步地使每一个人饱尝喜怒哀乐,时而捶胸顿足,时而得意忘形。舆情指数、选票、国民对政府的满意度,让政治家们既激动又紧张。票房、收视率和点击率更是成为艺术、影视明星的衣食父母。一个既陈旧又新鲜的术语“拜票”刻画出竞选者们忐忑不安的内心世界,即使是一个身无半文的无家可归者,或者干脆就是乞丐,在一个西装革履的总统竞选者面前也可以指手画脚。在新的求职场上,如果你能侃侃而谈数据分析,使人们的钱包随股市上涨,那么你立即就会像天价钻石一般受到精英降临般的厚待。一个在业界不言而喻的现象是,数据分析师已成为最为抢手的热门职业。

1.3.1 炙手可热的数据分析师

与大数据冲击相应,劳动力市场迅速出现了变化,数据分析师成为炙手可热的行业。

美国培养并聘用了大量数据分析师。麦肯锡全球研究所(McKinsey)去年进行了一项调查,根据调查预计,美国需要14万名至19万名以上具备“深度分析”专长的人员,而对具备数据知识的经理的需求超过150万名注:引自麦肯锡《大数据的下一个前沿:创新、竞争和生产力》,2011年,百度文库。

美国《纽约时报》专门就“数据分析师”成为热门职业进行了采访。尽管受金融危机的影响,失业率上升成为美国政府头痛的第一问题,但是,一个叫周墨(音译,Mo Zhou)的刚毕业的学生,因为拥有一个“数据分析师”的头衔,刚刚走出耶鲁大学MBA大门,就被IBM抢先聘走。这家大名鼎鼎的信息技术公司对市场的敏感使它高度重视有关数据,公司拥有一大批数据分析师,他们每天的工作就是帮助企业分析数据——Web流量、社交网络上的评论,以及监控货物、供应商及客户的软件和传感器上的数据。董事会的决策需要准确的数据支持,股东们对利润的关心迫使他们在市场大数据面前,绝不敢掉以轻心。显而易见,他们的关注得到回报,现在,他们无论是为决策咨询、成本节约,或是营销业绩考虑,准确无误的数据都是最好的指导。

1.3.2 “阿里巴巴”与电商时代

1.互联网上的创业

马云经营的“芝麻开门的阿里巴巴”的故事就是从数据开始的。

1994年年底,马云偶然听说了世上还有个互联网,这个当时极为稀奇的东西引起了这位胸怀大志的外语教师的胡思乱想。马云饱含心酸地回忆到:“因为1994 年年底我在电子工业学院,除了教书之外还做外办主任。我们有个外籍教师叫Bill(音),是西雅图的。那一年寒假,他在12月份回去过圣诞节,圣诞节过后最后一个礼拜回到杭州,他就跟我讲网上如何如何,其实他对于网络显然也是一知半解的。我不是搞电脑的,也听不懂,但我还是觉得挺有意思。他讲得很激动,我听得也很激动。”用数据的语言来说,两个“激动”导致了一个“行动”,马云触网就此开始,首选是卖黄页。

1995年4月马云创办了“中国黄页”网站,这是第一家网上中文商业信息站点。数据能够变钱,使他产生了强烈的“数据就是财富”的意识。他从中摸清了互联网商业模式的秘密,为自己,也为中国互联网探索着面向企业服务的道路。

也许是摩尔定律的压力,对数据商业价值的敏感促使马云要不断升级。1997年年底,马云和他的团队在北京开发了外经贸部官方站点、网上中国商品交易市场等一系列国家级站点。正是在这片广阔无边的新型市场上,这匹中国电子商务的骏马,积累了多方面的互联网经商经验,马云无法就此止步,他决心要大干一场。

1999 年初,马云回到杭州以50 万元人民币创业,开发阿里巴巴网站(www.alibaba.com)。“芝麻开门”的奇迹在无神论的中国释放出真实的景象。2001年,在为中国企业“入世”更好地开拓国际市场的目标鼓舞下,阿里巴巴(Alibaba)隆重推出“中国供应商”服务,向全球推荐中国优秀的出口企业和商品;与此相应地同时推出“阿里巴巴推荐采购商”服务,与国际采购集团沃尔玛、通用电气、Markant和Sobond等巨擘结盟,共同在网上进行跨国采购。同年,阿里巴巴联手全国工商联、国务院发展研究中心等部门共同发起倡议在中国设立“9·19”诚信日,并在全球率先推出企业级网上信用管理产品……

就在短短几年,马云震撼了中国,也让世界知道了马云。今天,马云又在着手更为野心勃勃的计划,推出1000 亿元规模的、建立全国范围24小时内供货上门的电子商务全国联盟。如果成功的话,这将是人类有史以来最大的市场!

2.11·11,疯狂的光棍节

2012年,全中国人民被一个新的节日震撼了,一个由无比精明干练的马云发动的光棍节“11·11”淘宝被载入史册。

让我们看看这一组令人难以置信的数字:

2009年,淘宝网在11月11日发起“品牌商品五折”活动,当天销售额达1亿元;

2010年,11月11日当天的促销活动,淘宝网总销售额增至9.36亿元;

2011年,这一数字再度被刷新,光棍节成交额疯狂飙升至52亿元;

2012年,11月11日13时38分,不到14小时淘宝网成交额突破100亿元,24小时活动结束后,这一数字定格在191亿元。

几乎所有的媒体,都记住了“淘宝疯狂”的景象:一天成交额191 亿元。中国的11月11日“网购节”一举成功,成为像美国万圣节之后的“网购星期一”一样的网络购物的最重要节点。

大同小异的充满激情的描述是这样说的:

“零点过后的第一分钟,1000万用户“涌入”天猫、淘宝网购平台;14小时不到,成交额突破100亿元,活动结束,总成交额191亿元,其中天猫132亿元,淘宝59亿元。而在单体店方面,昨晚18时47分,杰克琼斯天猫官方旗舰店支付宝成交额破亿元,成为首个破亿元的店面。“光棍节”零点开启的这场网购狂欢节,再度刷新中国电商行业纪录。

大学生孟平“早就看好了一条围巾和一顶帽子,已加入淘宝购物车,支付宝也充够了钱,就等着双11的到来了。去年购物节,她以40元的价格买到了原价100多元的电饭锅。”

像孟平这样望眼欲穿,就等待着在“光棍节”狂购一场的人不计其数,平时竭尽全力为“引导消费”或干脆是赤裸裸的“引诱消费”的坐商,望着网上蜂拥而至的消费者、销量直线上升的狂潮而目瞪口呆。

光棍节凌晨,在一家股份制银行上班的吴丽莹和同事们留在写字楼加班,她们严阵以待,时刻准备着应付网上交易系统的不测事件,为的是保证人们在抢购打折商品大把付款时,一切都能OK!

突然爆发的交易规模对系统承受能力是巨大的考验,自天猫网领舞起,“购物节”不再是缔造者天猫“独舞”,除了天猫、淘宝、聚划算这一系列,苏宁易购、当当、国美等电商巨头也纷纷加入。据统计,与2011年相比,参与2012年“购物节”促销的大型电商扩容至10余家。

为了胜出竞争,各路电商们各显神通,纷纷亮出自己的差别式“剑法”:天猫押宝在2012 年“双11”当天低价促销;国美电器网上商城更是先下手为强,在11月1日就开始提前低价促销,并且持续到12日;当当网的促销来了个折中,从11月5日开始持续一周;苏宁易购别出心裁,投入5000 万元物流费用,独树一帜,成为“双十一”期间全网唯一全场免运费的电商。

“光棍节”的成功逼迫各环节立即实施技术改造,以便经受实践考验。光棍节的招商规则对报名商家的服务能力、网购商品价格、商家发货时限等有明确要求,入围商家还必须提供退货运费险。国美网上商城总经理韩德鹏表示,对虚假促销“零容忍”。国美商城与三星、松下、海尔等全球一线知名厂商签订合作协议,保证充足货源。

“光棍节”之前,各大快递公司已提前厉兵秣马。为了应对“双十一”促销,苏宁易购提前在“北上广”等城市招聘千名“兼职快递员”,促销期间估计50%以上的快递员能达到月薪万元,但“高薪背后是常人想象不到的辛苦”。各路快递公司严阵以待,提前两个月应对“爆仓”高峰。在合肥圆通速递的办公室里,电脑屏幕在不停刷新,电话不停响起,该公司初步统计涉及“双11”的货单有3万个左右。为了让收派货单程序更加顺畅,该公司提前2 个月就从技术、人员、客服等方面进行准备。以收派件员工数量为例,平时该公司一天有400 多名收派员奔走在合肥的大街小巷,而光棍节有近600 名收派员工作,这其中有不少临时招聘的收派员,工资以天计算。顺丰快递安徽分公司在前期针对10月以后的快递高峰,就做好了电子商务技术、人员招聘储备等工作,而且针对快递高峰都做了预案。不少快递企业还创造性地推出“慢递”服务,涂料、地板等家装商品,消费者在促销当天付款后,可选择在2至4个月内任何时间提货。业内人士认为,慢递服务可缓解中国快递业整体运力不足的现状,也能适应消费者对于物流的个性化需求。

这就是发生在中国的改变!电子商务本身就是大数据时代的产物,如果没有电子商务,“光棍节”的冲击对任何国家都将是一场灾难。交通堵塞、订单爆满、商品脱销、支付卡壳,都还是一笑了之的小事。成千上万的人群,不约而同,突然走出家门,驰过大街小巷桥梁甬道,涌进商店,将会使目瞪口呆的业主店员们乐极生悲。也许,汽车碰撞、道路开裂、桥梁坍塌、大厦倾斜、人员拥挤甚至导致伤亡……绝不是危言耸听!

1.3.3 奥巴马——数据助选的“世界先生”

图1-6是美国近100年科技发展战略路线图。

图1-6 大冲击下的大改变——美国成为世界当之无愧的第一的原因

为了开发利用好这股数据洪流,美国总统倾注了极大的热情,成为美国最关注数据的人。从克林顿的“信息高速公路”注:准确的说法应该是信息高速公路计划发端于里根时代,兴起于克林顿时代。,到奥巴马的“大数据浪潮”,美国始终走在全世界前面,这多少使政府主导经济下的决策者们反思他们的注意力方向。

奥巴马显然是数据分析受益匪浅的“世界先生”,在连任美国2012 年的总统大选过程中,奥巴马的决策顾问中有一个堪称高新科技的特别行动队,这就是大数据分析团队——美国人实用主义和国力雄厚的真实源泉由此可见一斑——这只特别能战斗的辅选队伍,每天的工作就是收集、遴选各种社会舆情和动态,为奥巴马的竞选出谋划策,提供选情对策。而结果是众所周知的,尽管选举过程险情跌宕,舆情起伏,但奥巴马还是应对自如,过关斩将,大获全胜!

美国《纽约时报》还报道了一个在美国流传很广的故事,可以窥见美国教育体系的时尚性和实用主义精神。Justin Grimmer,斯坦福大学的一名28岁的助理教授,他发现了“一个机遇,因为学科正变得越来越趋于数据密集”,当机立断,决心成为一个新生代的政治学者。就是这样一个念头,一个崭新的政治学研究领域诞生了。Justin Grimmer调整了自己的大学及研究生研究,把数学运用于政治科学。他的研究对象包括博客发文、国会演讲,以及新闻发布、新闻内容,他从传播的角度,设计了自动的计算机分析,以便定量地分析政治观念的传播路径。

在其他领域,如科学、体育、广告及公共卫生,同样的故事还在重复发生。数据越来越方便及时地揭示和发现事物和现象的实质,从而影响人们的决策,“让数据说话”已经成为不可阻拦的习惯。

1.3.4 财富观念的变化:数据即财富

“这是一次革命。”哈佛量化社会科学研究所主任Gary King说到:“我们的确正在起航。在庞大的新数据来源的支持下,量化的前进步伐将会踏遍学术、商业和政府领域。没有一个领域可以不被触及。”

敢吃螃蟹的硅谷人迅速抢占制高点,由此诞生了一系列的硅谷新宠,前有谷歌(Google),后有脸谱(Facebook),都是驾驭Web和数据的大师,它们都擅长于给在线搜索、文章和消息披上互联网广告的外套。

2012年10月在瑞士达沃斯举行的世界经济论坛注:2012年10月在瑞士达沃斯举行的世界经济论坛上,一个重要报告题为:大数据,大影响。上,大数据是框定的主题之一。会议宣告:数据成为一种新型的经济资产,就像货币或者黄金一样。

IBM公司的CEO罗睿兰说:“数据将是下一个大的自然资源,将会区分每个行业的胜者与输家。”因为大数据蕴含的商业价值几乎不可估量,越来越多的企业调整了自己的发展意识,他们将数据分析放在企业未来发展过程中必须面对的关键阶段,事实上他们能够从这些新数据中获取新的洞察力,并将它与已知业务的各个细节相融合。

经济学家Schumpeter注:Schumpeter是美籍奥地利经济学家。1912年,他在《经济发展理论》一书中首先提出“创新”这个词。他把创新活动归结为五种形式:一是生产新产品或提供一种产品的新质量;二是采用一种新的生产方法、新技术或新工艺;三是开拓新市场;四是获得一种原材料或半成品的新的供给来源;五是实行新的企业组织方式或管理方法。Schumpeter在写这段话的时候,没有计算机,也没有IT行业。指出:数据正在成为像有形资本、人力资本这类产品的一个因素,数据资本将和品牌资本一样重要。

即使是一个没有数学和计算机基础的摄影家都感到了大数据扑面而来。里克·斯莫兰(Rick Smolan),“生活中的一天(Day in the Life)”系列摄影的作者,正计划启动一个名为“大数据的人类面孔”的项目。斯莫兰先生是一位狂热分子,他认为大数据有可能成为“人类的仪表盘”,能够作为一项智能工具,帮助人类与贫穷、犯罪以及污染作战。

2012年3月8日,国际数据公司(IDC)发布了全球大数据技术和服务预测,结果显示,相关市场预计将从2010年的32亿美元增长至2015年的169亿美元,这意味着年复合增长率达到40%,是整个信息和通信技术(ICT)市场的7倍。

当然,专家对这些数据还有争论,其他不少机构的预测比这个乐观很多,不过所有这些数据已经足以让经济低迷近5 年的国际社会感到欢欣鼓舞。尽管现在看,数据集不是很大,但是增长速度很快,每年达到60%甚至更高。

见小微而知著天下,大数据改变世界!带来了新的社会和知识世界的全新融合,形成新的知识领域。

人们不得不得出这样的结论:数据将是下一个巨大的自然资源,在如何利用它面前,将会区分每个行业的胜者与输家。

1.3.5 大数据:美国军队在行动

1.本·拉登之死与海豹突击队行动

2011年5月2日,全世界被美国政府宣布的一则震惊世界的消息惊醒:美国长期以来通缉的恐怖大亨本·拉登被美国海豹突击队击毙。由于白宫对这一重大事件的报道口径不一,甚至有些漏洞百出,美国总统奥巴马一再宣布不打算公布尸照,但是疑似拉登的尸照却早已在网上疯传。因此,世界在震惊之后,对奥巴马政府提出了一系列质疑。

本·拉登

按白宫的官方说法,拉登是被活捉后遭到枪杀的,因为早已做好准备,死前他已经立有遗嘱。在枪杀拉登的时候,拉登的妻子并没有被他用作人盾。

然而,英国《每日邮报》网站的报道与此相异,一名自称亲手射杀本·拉登的美国海豹突击队队员日前接受了《Esquire》杂志的采访,首次公开讲述了这名恐怖大亨生命的最后历程。出于安全考虑,这名匿名的美军士兵自称为“射手”,是射杀本·拉登六人小组的成员之一。他在访谈中详细描述了射杀本·拉登这段惊心动魄的过程:

“当六人小组收到行动命令时,一位前中央情报局的女特工告诉他们,已经‘百分之一百确定’本·拉登就在巴基斯坦阿伯塔巴德镇一栋楼房的三层。”“‘我们找到他了。’她告诉我们,‘这就是他,我很确定。’随后,我就找好狙击点,拿起武器瞄准目标。”这名海豹突击队队员回忆道,当时他看到本·拉登时感到很吃惊,“他很高很瘦,胡须很短,头发也刚剃过不久,总之,和我想象中的不太一样”。

“射手”说,可能本·拉登当时意识到自己的处境很危险,所以他把妻子搂在胸前当作人盾。“我不知道她的身上是否绑有炸弹,所以当下我就意识到只能一枪击中本·拉登的头部,否则会有可怕的事情发生。下定决心后,我开枪了,接连两枪先后击中目标。砰!砰!第二声枪响过后,他倒下了,身子一动不动,他的舌头伸出来了,我看见他最后呼了一口气。”

“他的额头一片血肉模糊,伤口成V字型,脑浆和鲜血流出来糊住了脸庞。当时我就在想,这究竟是我做过最好的还是最坏的事?”就在此时,拉登妻子的哭声把“射手”从深思中惊醒,他立刻反应过来,拿出胶布封上拉登妻子的嘴,让她坐在一边。忽然,他发现屋子角落里有一个两三岁的男孩在大哭,“他是拉登最小的儿子,他在大哭,在尖叫,我不愿意看到他这副受惊的样子,就把他抱起来放在他妈妈身边。”

“射手”透露,击毙本·拉登只持续了15 秒,但其间的惊险和紧张却令他终身难忘。

……

从上述报道和更多的消息来源,美国政府早已通过大数据技术,锁定本·拉登,至于何时动手处置,是活捉还是当场击毙?只是白宫见机行事的决定,而本·拉登即使远离电子设备,深藏于密室或洞穴,无孔不入的信息技术,特别是大数据技术,也可以探寻到他。因为,如果本·拉登真的与世隔绝,从此,销声匿迹,那与被杀死并无二致。但如果他坚持要发声和行动,那无异于将自己暴露在大数据的天罗地网中,一出声即被迅速锁定,无可逃遁。

2.网络战争:美国军方在行动

在现代社会,最先进的技术总是被首先用于军方。大数据同样是首先服务于美国政府和军方。对美国军方来说,其最重要的概念就是ISR(情报、监视和侦察,Intelligence,Surveillance and Reconnaissance),是C3I(通信、指挥、控制和情报系统,Communication,Command,Control and Intelligence systems)中“情报”的再次扩展。其次是一个新概念DI2E(防务情报信息企业,Defense Intelligence Information Enterprise),这是一个基于云平台之上的情报整合系统,国防部和情报机构依靠这个系统能够分享所有来源的信息。这个系统有效地将军队情报部门每天得来的海量数据进行分析和利用,使美国的情报分析更加精准。

美军绝不会将“与时俱进”停留在口头上,他们不断地发展网络中心战能力,推动网络信息战向更高阶段发展。1998年美国海军率先提出网络中心战的思想,立即得到美国国防部和作战部队的广泛关注。2001年7月美国国防部系统地提出了网络中心战的思想,网络中心战随之从概念设计走向了实践。由于美军对信息网络技术的依赖不断加深,发展确保网络安全的能力已经成为美军优先的战略任务。美军网络司令部依照国防部的计划,制定了实现网络空间安全的政策和战略,以保证切实提高网络安全风险的防御能力,增强网络的自我恢复能力,保持数据和通信的可靠性,确保国防部对网络作战的信心。

2010年5月21日,美军网络司令部正式启动,隶属美国战略司令部。其目的直言不讳,就是“为了打击敌对国家和黑客(Hackers)的网络攻击”,“其主要任务是执行网络防御作战”。美军此举标志着人类战争由机械化时代迈入信息化时代。而阿富汗战争、伊拉克战争和利比亚战争证明,美军建立网络信息战的率先行动在前期的作战行动中是卓有成效的。当敌方的指挥系统被网络攻击而致瘫痪之后,美军全天候的先进的信息开发和处理技术,就使战争变成了真正的电子游戏。

现在,根据“斩首行动”概念,战争几乎到了零伤亡的水平,因为“射人先射马,擒贼先擒王”,美军的无人机像苍蝇一样无孔不入,深入敌方,敌方首脑的所有信息一清二楚。接下来,就是如何假作高雅地,既要消灭敌首,又要零伤亡,还要维护美军人道主义的面子,将血淋淋的画面隐藏起来。

美军不仅重视开发各种先进信息技术,而且已经把全球的陆、海、空、天领域的所有极有价值的情报信息都汇集起来,分门别类地“装入”国防部的信息网络之中,只要需要,遍布世界各地的美国军人,就会根据美国国家利益,实施实时的战争和非战争行动。美军在网络信息领域赢得了其他国家无法企及的战争优势。

美国也懂得集中力量办大事,美国国防部是世界上最大的计算机网络用户,它聚合强大的网络信息资源,塑造其无与伦比的综合优势。据新一版的《四年防务评估报告》称,美军目前在世界范围布置了4000多个军事设施,超过1.5万个不同的计算机网络24小时不停地运转。除此之外,还有700万台国防部的计算机和电信设施在88个国家昼夜不停地运转,在上面运行着成千上万个作战和支援程序。

根据美国的军事理论,在现代战争中,网络信息攻防战已经无可避免,它是现在和未来军事对抗中最为普遍、最主要的斗争形式之一。在这一理论思想的指导下,美军网络司令部加强了对国防部网络系统日常防御、保护和作战行动的领导、协调和整合,使之在组织网络作战和演习方面具有更高的程序化。网络司令部的主要职责就是负责将网络作战行动纳入作战计划和应急作战行动,指导美军实施全频谱网络作战,扩大美军的网络中心战的能力优势,成为保护美国全球霸权、提升作战能力的得力推手。

为了保持美军的技术领先地位,美国一方面不断指责别人搞高科技的军备竞赛,另一方面,毫不犹豫地加速军备竞赛。只要美国发现自己的领先地位受到威胁,他一定会不择手段、不遗余力地迅速提升自己的优势。前些年,美军就开始招募软件高手甚至黑客,研究网络信息战的攻防战术。今天,世界上不少国家的军队都形成了一定的网络中心战能力,这一趋势加剧了美军的紧迫感。

3.机器人时代的号角已经吹响
(1)机器人取代了人——这是危机还是机遇?

2013年,已经饱受金融危机冲击的欧美国家遭遇到“史上最难就业年”,信奉消费主义的西方国家的居民纷纷捂紧了钱包,斯坦福大学研讨会上的茶点和饮料明显“贬值了”,以前不被看上的小排量汽车大受欢迎,早已将制造业向外转移的美国重新举起“复兴制造业”的旗帜。一贯以自由贸易自诩的美国不顾一切竟然对中国举起了“贸易保护主义”大棒,欧洲各国更是寻找各种借口抵制中国廉价劳动力产品的“倾销”——这一切都是失业惹的祸。尽管如此,“危机同时又是机遇”,自动化领域的企业和专家们兴高采烈地迎来了期待已久的“机器人爆发之年”,全球制造业自动化转型需求极大地推动着自动化装备市场的发展。

看来,在第三次产业革命推动下,全球工业机器人市场一片繁荣。据联合国欧洲经济委员会和国际机器人联合会(IFR)的统计,世界机器人市场前景看好,从20世纪下半叶起,世界机器人产业一直保持着稳步增长的良好势头。进入20世纪90年代,机器人产品发展速度加快,年增长率平均在10%左右。2004年增长率达到创记录的20%,其中,亚洲机器人增长幅度最为突出,高达43%。OFweek行业研究中心最新发布的《2013~2017年全球与中国工业机器人市场研究及预测分析报告》表明,2012年全球工业机器人销量创出历史第二高,超过15.9万台;截至2012年末,全球工业

机器人累计安装量达118.7万台,同比增长5.9%。《报告》进一步预计,2017年全球工业机器人销量将达到22万台以上,年均增长率达6%。作为机器人增长最快的市场,2012年中国已成为仅次于日本的全球第二大机器人市场。在存量方面,《报告》显示,2002—2012年中国工业机器人年累计安装量几乎都以超过30%的速度增长,从2002年的2152台发展到2012年的96387台,即便是受金融危机影响的2009年,中国工业机器人累计安装量增长率也达到17.38%。截至2012 年,中国占全世界正在服役工业机器人总量达8.12%。劳动力红利的消失,也迫使中国决策者越来越重视工业机器人产业,国家对工业机器人的产业政策支持力度也在逐步加码。2012年以来,国家部委制定的规划和专项政策陆续出台,使得工业机器人产业的发展轮廓得到进一步的明晰:2012年3月至4月,科技部相继发布《智能制造科技发展“十二五”专项规划》和《服务机器人科技发展“十二五”专项规划》,提出重点研发工业机器人、自动化生产线、流程工业的核心工艺和成套装备,重点发展公共安全机器人、医疗康复机器人、仿生机器人平台和模块化核心部件等;2012年7月,国务院发布《“十二五”国家战略性新兴产业发展规划》,提出要大力推进自动控制系统、工业机器人、关键零部件等装置的开发和产业化。截至2013年7月,工信部正积极推进工业机器人产业化发展,《关于推进工业机器人产业发展的指导意见》正上报发改委和科技部及其他有关部委,相关政策出台在即。

(2)从机器时代到机器人时代

尽管如此,大数据时代机器人的热潮并不是突然而至,其历史原因始于18世纪从英国发起的那场技术发展史上的巨大革命,它开创了以机器代替手工工具的工业时代,也是产业革命从人到机器的开端;而大数据时代现代机器人的出现,却是别有用“心”的年代,它标示着产业革命不仅触及“物理世界”,而且深入到人的“灵魂”,这既是从机器到复归“人”(机器人)的时代,也是从旧人类向新人类进发的时代。

人到机器

回顾人到机器的时代主要是第一次产业革命和第二次产业革命时代。

第一次产业革命不仅是一次技术改革,更是一场深刻的社会变革。这场革命是以蒸汽机作为动力机被广泛使用作为标志的。从生产技术方面来说,产业革命使工厂制代替了手工工场,用机器代替了手工劳动;从社会关系来说,产业革命使依附于落后生产方式的自耕农阶级消失了,工业资产阶级和工业无产阶级形成和壮大起来,而制造业则迎来了突飞猛进的全盛时代。

英国是产业革命的发源地。18世纪60年代,英国产业革命从纺织业开始,到19世纪40年代基本完成。继英国之后,美、法、德等国家也先后发动了产业革命。美国的产业革命几乎步英国后尘亦步亦趋,美国的产业革命也始于棉纺织业。18世纪末,美国人先是仿造珍妮纺纱机,不久又发明了轧棉机,从英国引进织布技术。随后,服装、制革、玻璃、毛纺等行业也相继使用机器生产。

法国产业革命的最大转机是在法兰西第二帝国建立之后,拿破仑三世以强力的手段,为产业革命提供了良好的环境,促使法国进入“农业黄金时代”。到60 年代后期,重工业、机器制造业发展迅速,表明法国的第一次产业革命已经完成。

具有独特风格的德国产业革命是与摆脱封建制度运动同时进行的。产业革命开始时,德意志还是个四分五裂的国家,邦国和自由市林立,各地发展极不平衡。19世纪30年代,普鲁士的资产者逐步引进英国的机器,建立机器纺织厂。普鲁士作为带头人,通过产业革命,在统一国家的过程中,也推动了经济制度的更替。

19世纪的科学技术发展突飞猛进,新技术、新发明层出不穷,并且很快被产业化。这一时期也就是第二次产业革命(Second Industrial Revolution)。控制论创始人维纳认为,第二次产业革命典型的特征是自动化。由于第二次产业革命很多新兴科学技术的发明,大大促进了经济的发展,形成许多新工业部门,如电子工业和电器制造业、汽车工业、石油开采业和石油化工工业,以及新兴的通信产业,特别是电力的广泛应用,更是为制造业打开了方便之门,提高了制造业的劳动生产率,促使工业生产趋向于自动化、产业化发展。

时至今日,人类已经经历了两次产业革命。而到今天,大数据唤醒了自以为是的人类,当他们比较三次产业革命的历史,方才恍然大悟,过去数千年的历史仅仅是使人变成了机器,而现在,才是唤醒人类心灵再造,使人真正成为人的时代。在这个时代,人类以其大脑为模板,生产出来一个同“上帝”给与的大脑一样,甚至更优的大脑——智能机器人,从而把人类社会的发展推进到一个史无前例的新高度。从机器到“人”(机器人)的主要特征是:以“数字化智能制造”为核心的第三次产业革命即将到来,而“数字化智能制造”的主体就是工业机器人。

工业机器人

机器人的最初用途主要是在工业领域模仿人的手臂和下肢,代替人类体力性的多维运动,如做一些机械性的工作,如拧螺旋、焊接、移动输送物品、分拣物品,等等。在制造业中,尤其是在汽车产业中,工业机器人得到了广泛的应用,如在毛坯制造(冲压、压铸)、机械加工、焊接、热处理、表面涂覆、上下料、装配、检测及仓库堆垛等作业中,机器人基本上已逐步取代了人工作业。随着工业机器人向智能化水平的提高,工业机器人已在越来越多的领域得到了应用,诸如采矿机器人、建筑业机器人,以及水电系统维护维修机器人等,在各种非制造行业大显身手。在国防军事、医疗卫生、生活服务等领域,各类机器人,如无人侦察机(飞行器)、警备机器人、医疗机器人、家政服务机器人也越来越普遍。在一些高新技术领域,无人工厂已经大量出现。

随着信息技术和新材料的进展,智能机器人出现,机器人开始模仿人类的智力劳动,正是这一特征,以互联网、新材料和新能源为基础,“数字化智能制造”为核心的第三次产业革命揭开序幕。

智能机器人,机器人取代人的时代

随着时代对机器人应用的需求扩张,技术不断向智能化、模块化和系统化方向发展,出现了结构的模块化和可重构化,控制技术的开放化、PC化和网络化,伺服驱动技术的数字化和分散化,多传感器融合技术的实用化,工作环境设计的优化和作业的柔性化以及系统的网络化和智能化等方面技术进步,智能机器人正在代替传统工业机器人。

美国伊利诺伊大学研究人员在对由MIT(麻省理工学院)开发的ConceptNet 4人工智能系统的智商进行测试后发现,其智商相当于4岁儿童,但是在不同测试部分的得分很不均衡。在词汇测试中的得分很高,识别相似事物的能力很强,但其理解能力“远低于”平均水平。

人工智能(AI)专家Dmitry Aksenov一直试图制造能够像人类一样思考的计算机。为此,Aksenov在2011 年创建了伦敦品牌战略技术公司(LBM),公司的业务就是为那些想要将顾客与雇员的相互交流外包给电脑的大客户提供人工智能服务。目前,宝马公司将这一项技术用于新型电动车辆的问题答复。人们发现,这个系统在回答问题时相当地人性化。英国宝马i3汽车的市场部主管Chris Brownridge说道:“它能够理解每一个问题而且准确地回答出来,就好像你在同公司的专家进行交流一样。”这个系统全天候开放,这就能够使顾客不再为“i系列”汽车的问题打电话或者去找经销商而感到烦恼。当顾客通过邮件或者短信向LBM系统(开发人员昵称其为“大脑”)发送问题时,这个系统会在5秒内做出回答。Aksenov声称,这项新技术代表着服务自动化领域的一种巨大进步,他说道:“唯一能够泄露出你正在同一台计算机谈话的就是它回复得太迅速了。没有人能够在3 秒钟内接受、阅读并且回复一条信息。它不仅能抓住关键词并且理解你试图了解的信息种类,并且它也能够解读语境、情绪甚至是幽默。”

LBM系统是基于云计算的,它能够同时处理数千条询问信息,它的数据库似乎有着无限的存储能力。Aksenov说:“‘大脑’等同于数千名电话服务人员或者销售人员。与人类不同的是,人类大脑的能力有限,而人工智能能够记住所有的内容而且不需要休息。”有数百个领域的客户都在申请这种系统的应用,而他只为那些特许一次性免费“教授”这种系统的品牌提供这种技术。他说道:“五年之内我们将打造一种系统,它能够真正比人类了解得更多而且能比人类更高效地传递信息。它能够取代目前许多由人担任的无聊工作。”

伊利诺伊大学计算机科学领域掌门罗伯特·斯隆(Robert Sloan)说,“人工智能系统的智商远没有达到8岁儿童的水平。”据斯隆称,人工智能研究的难题之一是,开发能根据出现的情形作出恰当判断的计算机软件,而要使计算机软件具备常识很困难,因为科学家尚未搞清楚如何使系统了解人类习以为常的知识,例如看到冰就感到寒冷。斯隆说,“人类具备大量常识,这些常识是从小积累起来的。”

机器人

1997年,第一届世界杯机器人足球赛(RoboCup)在日本名古屋举行,“最初的任务是机器人足球队到2050 年能战胜人类的世界杯足球赛冠军队”。让机器人进行足球比赛的想法,是由加拿大不列颠哥伦比亚大学教

授阿兰·马克沃斯在1992 年率先提出的。1996 年,RoboCup国际联合会成立,次年举办了第一届RoboCup比赛,此后每年举办一次。不过,刚刚从荷兰第17 届RoboCup上捧金夺银载誉而归的中国科学技术大学机器人实验室主任陈小平教授却说:“战胜人类世界杯冠军队已不是机器人研究的终极目标,目前世界各国都在大力开展智能服务机器人研发,从而推动制造业的升级转型。”

虽然中国足球队在世界竞技场上表现不尽人意,阴差阳错的是,中国的机器人足球队却出“脚”不凡。“足球比赛是一种技巧性强、对抗激烈的体育赛事,而机器人足球比赛则是涉及到机器人学、智能控制、机电一体化、通信、视觉与传感、精密机械和仿生材料等诸多领域的高技术对抗,是一个国家信息与自动化技术综合实力的体现。”陈小平说道:“中国在世界机器人版图上的地位已经变得越来越重要。”在荷兰埃因霍温举行的第17 届RoboCup机器人世界杯上,中国代表队大放异彩:中国科大机器人“蓝鹰”在仿真2D组以不败战绩,领先亚军20个净胜球的优势再度夺冠,该校服务机器人“可佳”获得亚军;浙江大学、南京邮电大学、北京信息科技大学分别在小型组等项目夺冠。一时引得媒体纷纷惊叹:“机器人为中国足球圆梦世界杯!”

(3)绞肉机——杀人不需眨眼的战场机器人

正如所有的最新技术都被最先用于军事目的一样,据新华网专稿报道,近年来,美国大量生产作战机器人,美国陆军地面机器人呈几何级数增长。美国陆军在伊拉克和阿富汗部署了5000多个无人地面系统。

持枪机器人

美军机器人携带火箭筒

机器人战争时代即将来临

2002年,当一架“食肉动物”侦察机在一辆坐满“基地”组织嫌疑犯的汽车上空盘旋,操纵“狱火”导弹的人员在7000英里外的遥控室内,就像电子游戏机一样,遥控人员只要轻轻按下按钮,“食肉动物”和杀伤力更强的“收割机”无人攻击机就会精确地扑向地面的猎物,几乎万无一失。

英国媒体惊呼:可怕的机器人战争时代即将来临。据《简氏防务周刊》报道,“美国陆军地面机器人呈几何级数增长”,文章引述一位美国高级军官的话说,美国陆军在伊拉克和阿富汗部署了5000多个无人地面系统。陆军无人系统一体化负责人约翰·伯克上校在华盛顿的一个会议上说,美军无人地面系统的增加与无人机的增加一样快。他说:“我们常把注意力放在无人机上。其实,在无人地面系统方面,2004年我们有163个地面机器人;2005年我们有1800个;2006年有4000个;2007年,到目前为止有5000个。所以说,无人地面系统的增长速度与无人机的增长速度是一样的。”目前服役的很多无人地面系统是作为拆弹机器人出现的,但是,随着美军武器系统继续向无人系统转变,无人系统的数量和使用都增加了。例如,美军第三步兵师最近部署了“远程侦察直接行动观测系统特种武器”(SWORDS)。SWORDS带有一个遥控武器站。该系统可用于路线监视、军队保护和城市作战。

在地面机器人的应用呈几何级数增长的同时,美军也越来越依赖无人机。在伊拉克战争开始时,陆军有1 个MQ-5B“猎人”无人机连和2 个RQ-7B“阴影”无人机排,共有16架无人机。据简单统计,无人机目前在战场飞行的时间总共累计已达271153个小时。美军还建立了一个新的军事专业——15W,这是指经过培训担当无人系统操控员的人。目前,陆军的空中无人系统包括RQ-11“大鸦”、“影子”、“猎人”和I-GNATER无人机,后者将被远程多用途(ER/MP)无人机取代。

伯克上校说:“我们刚开始进行‘伊拉克自由’行动和‘持久自由’行动时,无人机系统总共每天大约只飞几十小时。”他说:“2005年,我们每天飞100小时左右。到2007年,每天飞500小时。”陆军无人机结合了光电能力和红外线能力,但是美军还打算给像“影子”和“勇士”这样的无人机增添激光目标指示器、通信中继包和其他系统。

第三次世界大战是机器人大战

英国《卫报》8月18日发表英国谢菲尔德大学人工智能教授诺埃尔·夏基的文章,题目是“机器人战争已经是现实”。文章说,美军在伊拉克部署第一批携带武器的战场机器人的做法,是向一条危险的道路迈出的一步——我们正悄悄地步入一个“美丽新世界”,在那里机器人可以决定谁被杀掉、在哪里被杀以及何时被杀。

军事用途的机器人迅速铺开,韩国和以色列已经部署武装机器人来守卫边境,新加坡和英国也越来越多地使用军事机器人。

由于人力越来越宝贵,美国已经越来越依靠机器人,美国国会制定了一个目标,即到2015年,三分之一的地面作战车辆要实现无人驾驶。到目前为止使用机器人最多的是美国,机器人是美国耗资2300亿美元的“未来作战系统”计划的主要内容。这个规模庞大的计划就是要开发无人系统,从空中、海底和陆地上发起攻击。

令人不无担忧的是,人类的科技正在朝着毁灭自己的方向发展。具有自我决定是否杀人权利的自主机器人很快将成为现实,美国全国研究委员会建议“充分利用自动装置带来的战斗优势”。他们认为,这些装置制造起来很便宜,不需要太多人员,一名士兵就能在空中和地面发起一场大规模的机器人攻势。但人们没有想到,事情正在向出乎意料的方向发展。当年,普罗米修斯(Prometheus)盗取了天上的火种到人间,宙斯(Zeus)为了惩罚人类,便令众工之神用泥土塑造了一个据说是地球上的第一个女性——潘朵拉。潘朵拉在诸神的祝福下,成为了最完美的女人,但一旦脱离普罗米修斯的控制,潘朵拉再也不肯听从普鲁米修斯的劝告。一天无所事事的潘朵拉在好奇心的驱使下打开了隐藏着世界上最严酷的诅咒的魔盒,于是所有的病痛、战祸、灾难……都化做恐怖的幻象,飞向世界每个角落,人类灿烂辉煌的黄金时代也就此宣告结束。慌乱中,潘朵拉及时地盖住大箱子,结果里面只留下了希望。因此,即使人类不断地受苦、被生活折磨,但是心中总是留有可贵的希望,才能自我激励。在死亡以前,希望永远存在,人生也绝对充满了美好的希望。

潘朵拉

由机器人来决定是否消灭人类的想法令人毛骨悚然:这是否又是一个潘朵拉魔盒?杀人机器人迈开了战争中一个危险的步骤,可在这方面却没有新的伦理准则和指导原则。机器人并不具备做出符合伦理道德的决定的能力,不能指望机器人区分出一辆满载敌人的汽车和一辆满载学生的汽车,机器人甚至不能区分武器和非武器,更不用说伦理道德了,当一个小女孩伸出冰淇淋给机器人分享时她可能会被打死。来自战场的报告证实了这一猜想,越来越多的无辜居民被无人机和机器士兵杀死,而决策者们不以为然,将这归结为战争的必要的代价,但是有一天,他们也许会发现,机器人的枪口对准了他们自己!

4.震惊世界的“棱镜门”事件

就在人们为大数据带来的便利而弹冠相庆的时候,人们也开始抱怨隐私常常被揭露,然而,这种抱怨还没来得及酿成气候,一个震惊世界的事件突然摆在全世界人们面前。

2011年5月,当奥巴马宣布美国头号通缉犯本·拉登被美国特种部队击毙的时候,深受恐怖袭击威胁的西方国家人士都在欢呼,因为,令他们提心吊胆、惴惴不安的恐怖大亨终于死了,没有本·拉登的世界想必会安全多了吧!

很少人注意到作为美国盟友的巴基斯坦政府和国民的权利和自尊心受到了莫大的伤害,他们的盟友美国原来对自己的盟友如此不放心,美国人竟然借盟友的身份,瞒着巴基斯坦政府和民众,直接深入到巴基斯坦的各个城市和农村,就如入无人之地,只要他们怀疑谁是恐怖分子,他们的无人机就能够神不知鬼不觉地直接动武杀人,就像电子游戏一样。

美国人显然怀疑巴基斯坦的国民和政府多少都与恐怖分子有牵连,否则美国不会如此对待自己的盟友。他们怎能不打招呼就在别人的国家动武?试想,你美国敢到俄罗斯去动武吗?那还不被打个臭死。即使是到伊朗美国都不敢,美国前总统卡特曾派出特种部队深入伊朗抢回被扣押的美国人质,不是丢了夫人又折兵吗?更不用说是俄罗斯了。若果真如此,大秀肌肉的“柔道师”普京还不得跟奥巴马干上几个回合?

也许是世界其他国家冷眼旁观,或是同病相怜,或是幸灾乐祸,巴基斯坦的抱怨几乎没有被注意,但是,很快,大数据时代又以迅雷不及掩耳之势叫所有人都目瞪口呆。

2013年5月20日,一个清瘦修长的美国青年急匆匆地走进香港国际机场,他拖着一个有些沉重的大行李箱,这个叫爱德华·斯诺登(Edward Snowden)的青年人刚刚29 岁,他职业的老道和细心令人惊叹,在再次细心审视自己即将叫世界大吃一惊的行动的时候,几乎没有人注意到他。在车水马龙的香港,拖着大包小包进出港的游人过客实在是太多了,司空见惯。

事实上,如果碰巧遇到一个经验丰富的边境警官或是海关缉私官,斯诺登想必不会这样轻易逃过注意,因为,他随身带的四台电脑,很容易引人怀疑。幸好那天海关没有难为他,而他随身携带的就是关于美国政府的最高机密,叫世界目瞪口呆、让奥巴马坐立不安的最高秘密。

斯诺登是最先接触到大数据的危险的人,因为,他的职业是监视每一个人,使用的技术就是大数据技术,他们是大数据时代的最早的获益者,同时,也是其受害者。

斯诺登自信自己是一个有责任感和使命感的人,他认为自己的工作触犯了人权的底线,而指使他干的就是雇用他的美国政府。斯诺登在良心的驱使下,决心向世界揭示这一真相。

斯诺登在从美国夏威夷飞到中国香港之前,一直替美国国防承包商博思艾伦公司工作,但他实际上的工作是在夏威夷一处美国国家安全局的设施内担任系统管理员。众所周知,美国国家安全局是世界上最大的秘密监视组织。

不过,斯诺登是个有些叛逆性格的人,他善于独立思考、有责任感,他勤于思考、不愿盲从。然而,他的时代是一个不安定的、变化多端的时代,大数据技术迅猛发展,人们传统的生活受到了威胁。隐私是一个人天生的权力,但是,现在技术发展已经突破了这个底线,而掌握了强大技术武器的政府不经授权就侵犯了每一个人的权利底线。斯诺登的正义感使他不能保持沉默,他决定揭露这一事实。

斯诺登按照他的职业习惯制定了周密的计划,2013年1月,斯诺登先联系上了一个纪录片导演和自由撰稿人劳拉·波特拉斯,他在这里先留下一个身份的“备份”。2月中旬,斯诺登又联系了居住在巴西的英国《卫报》记者格林瓦尔德。斯诺登制作了一段YouTube视频传给格林瓦尔德,教他如何加密。

格林瓦尔德忙碌起来,他要求与斯诺登会面。斯诺登答应了,但还是按照职业习惯精心制订了接头方案。

5月31日,格林瓦尔德先飞到纽约,和《卫报》的编辑会谈,第二天,格林瓦尔德和劳拉·波特拉斯一同飞往中国香港。

按照斯诺登的安排,格林瓦尔德到了一家酒店4 楼,他到达一个特定位置,然后大声询问餐厅的方向。躲在暗处的斯诺登确信无误后,约他们来到一个令人恐怖的房间,里面陈放着很多张牙舞爪的假鳄鱼。

千呼万唤始出来,神秘人斯诺登终于现身了。格林瓦尔德和劳拉·波特拉斯做梦也没有想到,眼前的神秘客竟然是一个年轻的帅小伙,他们很难相信,这个风流倜傥的小青年就是那个掌握着世界级秘密的神秘人。

令人震惊的采访就在斯诺登的房间进行,斯诺登镇静地告诉世界,美国政府确实通过法院下令,让电信巨头威瑞森交出数百万美国用户的通话记录,而这一举动牵涉的是一个此前从未公开的庞大监视项目——“棱镜”。

斯诺登向全世界揭开了一个秘密:美国政府时刻在监视着全世界每一个人的一举一动。他们的爱好、脾气、家庭,最令人恼火的是隐私,人们最不希望别人知道的隐私,都在奥巴马政府掌握之中,只要他高兴,就可以择时公布。

棱镜计划(PRISM)的“泄密者”——爱德华·斯诺登

“棱镜门”事发后,国家安全局(NSA)成为人们关注和研究的焦点。事实上,NSA存世已六十年。马里兰州首府安纳波利斯的米德堡就是美国国家安全局总部。米德堡的总部,通过卫星与光缆,建立了一个包括4 个密码中心、遍布全世界数千家分支机构、超过3 万名雇员的巨大网络,借助当今世界最先进的手段和技术,借口保卫美国的安全,偷听别国的无线电和网络通信。

NSA官网上一份2012年为庆祝该机构成立60周年而制作的外宣文件《国家安全局:保卫祖国60年》的小册子讲述了NSA不平凡的复杂的过去。NSA前身是1949年5月20日成立的国防部“武装力量安全局”(AFSA)。1952年11月4日,根据杜鲁门总统的秘密指令,在AFSA的基础上正式组建了国家安全局,以全面负责通信情报工作。1952年NSA共拥有7600名军事和文职雇员,目前其雇员超过了3万人。

“9·11”恐怖袭击使NSA的规模急剧扩大,权力提升,监督重心移向

网络。“对手已经发生了变化,冷战时期,NSA首要关注的是苏联,应对不期而至的危机,就像1962年古巴导弹危机。苏联解体之后,对手则变为一些国家。现在,一个使用计算机的人就可能成为我们最大的威胁。”自1999年到2006年担任美国国家安全局局长职务,后任中央情报局局长的退役空军上将迈克尔·V·海登在接受《大西洋月刊》杂志采访时称,早在“9·11”事件之前,他就意识到随着互联网时代的到来,NSA在收集信息情报方面的工作会逐渐衰退,并最终“变聋”。他呼吁国会批准监控互联网。2000年,他在众议院特别委员会的一次关于情报工作的公开的听证会上称,德国人对潜艇的通信以及苏联人对导弹基地的微波传输对他们而言都没有秘密可言,但是现在,所有你需要的数据都存于海量的信息之中。何况全球13 个互联网中心有9 个在美国。这次听证会加速了对互联网情报的收集工作。

“9·11”让他们获得了想要的一切,包括监控民用通信和网络的权利。在此之前受限于美国法律,他们还有些缩手缩脚,甚至因此遭到了美国总统的批评。

在经历很多次失败的试探后,通过雇用私营公司,NSA开始取得成绩,因为这些公司在技术上远远比NSA的官僚们精通。这些公司主要负责建立监视系统,并负责系统的日常管理和技术维护工作。

据《大西洋月刊》网站报道,位于加利福尼亚州的帕洛·阿尔托市的帕兰迪尔技术公司是NSA最紧密的技术合作伙伴,另外一家是“鹰盟”公司,而诺斯罗普·格鲁门公司的子公司则负责运行NSA公司IT项目。诺斯罗普·格鲁门公司在其网站上描述自己是“情报委员会首席信息技术管理服务提供商”。《赫芬顿邮报》报道则称,“在美国,与情报机构签约后为其工作的公司达1931家。他们要执行保障国家安全、防止恐怖袭击、间谍业务等任务,美国政府每年为这些人人均花费12.65万美元。”

2013年6月5日英国《卫报》爆出美国“棱镜”监控项目(PRISM),称美国家安全局要求电信巨头威瑞森公司必须每天上交数百万用户的通话记录,涉及通话次数、通话时长、通话时间等,不包括通话内容。6 月6日《华盛顿邮报》曝料,美国国家安全局和联邦调查局直接接入微软、谷歌、苹果、Facebook、雅虎等9 家网络巨头中心服务器,实时跟踪用户电邮、聊天记录、视频、文件等信息。6月7日美国总统奥巴马承认该计划,他强调说,该项目不针对美国公民或在美国的人,目的在于反恐和保障美国人安全,且经国会授权,并置于美国外国情报监视法庭的监管之下。

2013年6月9日,爱德华·斯诺登主动联系媒体,接受英国《卫报》和美国《华盛顿邮报》的视频采访,向全球公开棱镜计划(PRISM)是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,该计划的正式名号为“US-984XN”,也公开了自己的告密者身份。他是美国中情局的前技术助理,曾为NSA国防承包商工作。29岁的斯诺登出生在美国北卡罗来纳州,后来搬到马里兰州。他高中没毕业,曾到当地的社区学校学习计算机来获得必要的学分,最终没获得高中文凭。2003年,他加入美国陆军特种部队,但因在训练中受伤离开部队。退役后,他被安排在美国中央情报局(CIA)当技术助理。2007年,作为中情局信息技术员,他被派驻瑞士日内瓦工作,曾在那里接触到一些机密文件。2009年,斯诺登离开中情局,开始为NSA国防承包商工作。随后,他作为博思艾伦公司雇员在国家安全局工作4年,开始接触并复印监听计划的机密材料。

棱镜项目主要监控10类信息:电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节。通过棱镜项目,国家安全局甚至可以实时监控一个人正在进行的网络搜索内容。

棱镜计划的标志

《华盛顿邮报》报道,“棱镜”项目2007年启动。参议员范士丹证实,国家安全局的电话记录数据库至少已有7年。项目年度成本2000万美元,自奥巴马上任后日益受重视。2012年,作为总统每日简报的一部分,项目数据被引用1477次,国家安全局至少有1/7的报告使用“棱镜”项目数据。

斯诺登在6月9日的专访中说,自己良心上无法允许美国政府侵犯全球民众隐私以及互联网自由。

6月12日,斯诺登接受香港《南华早报》采访,称美情报部门从2009年起开始监控中国内地和香港电脑系统。同日,美国国家安全局局长、美军网络司令部司令基思·亚历山大为“棱镜”秘密情报监视项目辩护称,“棱镜”等互联网和电话监视项目已协助防范或挫败数十起恐怖事件。

6月13日,《卫报》和《华盛顿邮报》报道,美国联邦调查局(FBI)局长罗伯特·米勒13 日表示,FBI已经开始对曝光美国国家安全局“棱镜”项目的斯诺登展开刑事调查,这是美国官方首次证实已对斯诺登采取行动。

6月16日,英国《卫报》根据斯诺登提供的多项机密文件显示,“棱镜项目”曾在2009年监控G20多国政要,其中重点在俄罗斯和德国的政要,在欧盟各国引起轩然大波。

6月19日,“维基解密(Wikileaks)”发言人克里斯丁·拉芬森在冰岛报纸的一个专栏中说,一名中间人接触他,请他告诉冰岛政府:斯诺登寻求庇护。拉芬森没有透露这名中间人的姓名。冰岛政府随后证实了这一消息,但并未透露是否会同意斯诺登避难。冰岛政府发言人说,拉芬森通过非正式渠道和两个政府部门取得联系,此事中未牵扯正式请求。斯诺登在曝光美国国家安全局的“棱镜”项目后身处香港,他曾称赞冰岛非常重视保护互联网自由,希望自己最终在冰岛落脚。

6月23日,中国香港特别行政区政府就斯诺登事件发表声明,称斯诺登已自行循合法和正常途径,离开中国香港,前往第三国。《南华早报》证实,斯诺登23日上午10时55分左右离开香港,乘坐俄航SU213航班飞往莫斯科。而莫斯科并不是斯诺登的最终目的地,他可能由该地继续前往冰岛或厄瓜多尔。俄罗斯驻中国大使馆没有对这一消息进行证实,而俄罗斯在香港的领事馆则拒绝发表评论。据俄媒援引机场内部人士的消息,斯诺登的飞行路线是当天从香港乘坐俄航SU213航班飞抵莫斯科,第二天中午乘坐SU150飞往古巴的哈瓦那,再飞往委内瑞拉的加拉加斯。俄罗斯航空已确认斯诺登飞往古巴哈瓦那的行程。

6月24日,据外媒报导,棱镜计划泄密者斯诺登正式向拉美国家厄瓜多尔寻求庇护。厄瓜多尔外交部部长在社交网站推特(Twitter)上证实,美国国家安全局前雇员斯诺登向该国寻求政治庇护。同日,据俄罗斯媒体报道,斯诺登24 日并未出现在由莫斯科飞往哈瓦那的飞机上,下落成迷。抵达莫斯科后再未露面。“维基解密”创始人朱利安·阿桑奇(Julian Assange)表示他知晓斯诺登藏身地点,但不会透露。

恼羞成怒的美国政府发出了通缉令,这个唯一的超级大国威胁世界上所有国家不得收留斯诺登,奥巴马总统很随意地突破了底线,他说:“你不可能在享有100%安全的同时享有100%的隐私权和便利。”

斯诺登毫不示弱,立即为奥巴马补充了一句:“你必须在安全和隐私之间做出选择。”

斯诺登代表人类挑战了美国政府的观点,他认为,美国政府的行为实际上剥夺了民众做出选择的权利。要安全还是要隐私,这的确有争议,但美国政府没有让公众展开充分的讨论就替他们做出了选择。斯诺登认为,在安全和隐私之间必须有一个权衡,而美国政府现在的做法无疑已经触动了美国宪法的根本。

采访的最后,斯诺登引用了本杰明·富兰克林的一句话:“那些必须放弃自由才能获得的安全是根本不存在的。即使存在,也不值得拥有。”

斯诺登缓慢地背诵出了这句话,对于他来说,这句话和他现在的处境能够产生特别的共鸣。从6月10日开始,斯诺登转入地下,但“棱镜”的故事还远远没有结束。

斯诺登成了名气最大的间谍、告密者和逃犯,他被世界各地的新闻媒体称之为“美国头号通缉犯”,美国政府说他是“叛逃者”,声称他犯了叛国罪,并要求在法律允许的限度内对他进行最严厉的惩罚。

但他的支持者认为,他的行动开启了一个新时代,人们急需讨论现代社会的安全与个人隐私之间的平衡问题。

已经平息多年的冷战气氛似乎又死灰复燃,美国政府直接警告全世界,任何人都不得庇护美国的通缉犯斯诺登,俄罗斯总统普京在表示不愿意得罪美国政府的前提下,还是不肯交出斯诺登。斯诺登成了一个世界级的无家可归者。现在他已被允许离开俄罗斯机场,在俄罗斯获得了一年的庇护期。

他是个告密者、叛徒还是英雄?谁是谁非?争论仍在继续……

1.3.6 资本张开了血腥的大口

自从大数据兴起,就引起了一向势利的资本的密切注意,现在,这条野心勃勃的蛇,毫不犹豫地张开了血腥的大口。

1.美国政府在行动

美国政府表现了先头部队的作用,在2012年3月发布的“大数据开发计划”注:美国政府在2012年3月29日在白宫政府网站首页显著位置登出“Big Data,Big Deal”一文,证实美国政府推出大数据开发计划(“Big data research and development initiative”)。这个计划是对白宫总统科技顾问委员会26位顾问在2010年7月9日给美国总统奥巴马的“Designing a digital future:Federally funded research and development in networking and information technology”的报告的回应。中,美国政府投入大笔资金到六个部门的大数据开发计划,显示了他们对大数据开发的高度重视。这是前所未有的雄心勃勃的计划,开创了资本主义时代美国政府直接投资推动高技术发展的先河。

政府干预是放任自流的自由主义经济学嗤之以鼻的东西,但是,资本主义政府作为资本的忠实仆人,在关键性的时刻往往不遗余力地为资本发展服务。当资本还被约束在民族国家范围内的时候,西班牙、荷兰和英法美等国政府曾经赤裸裸地派出军舰和大炮,为殖民主义走向世界披荆斩棘。而在当代,信息化时代需要政府充当开路先锋和保护伞的时候,从里根、克林顿到奥巴马,连续几任美国总统都对信息革命——从信息高速公路到大数据——表现出毫不掩饰的支持。奥巴马总统更是一马当先,为确保美国领导世界的能力竭尽全力。如果说美国在高新技术方面的全球先行者地位难以动摇,那么,美国政府功不可没。

2.重振美国的大数据开发

以美国政府和军方为主导,围绕“大数据开发”信息技术的革命性产业整合,已经进一步变成使美国从目前经济困境中解脱的“救命稻草”和重新引领世界经济和技术的强大推动力。

起源于美国军方的海量数据,如何在瞬时开发出来,获得有用、有效的数据和情报,也推动了美国政府和民间对大数据开发的重视注:《参考消息》2012年4月19日6版刊登“信息太多,情报太少,海量数据难坏美军分析师”(原文题目为:Too Much Information,Not Enough Intelligence)。

就像当年的西部开发一样,嗅觉灵敏的企业也绝不会放过这一笔突然裸露出来的巨大金矿。美国大亨们从社会应用和商业发展的层面看,每天都可从公开的信息网络、各种网站和渠道产生的信息,挖掘出无穷的价值,大数据的宝藏确实让人们目不暇接,有力地直接推动着有需求的各部门、各个经济主体对信息进行处理加工,进而又引发对大数据开发的更大的热潮。这股热潮看来刚刚兴起。

随着国外的Facebook、Twitter、亚马逊(Amazon)、eBay,以及国内的搜狐、新浪微博、腾讯、淘宝、人人网、开心网等互联网社交应用及电子商务的普及,用户产生的内容(UGC),如用户信息、文本、商品、图片、视频等也在呈爆炸性的增长。现在,在短短的一分钟内,在Twitter上新发的信息数超过10万条,在Facebook上有超过600万条的浏览量。在Facebook上,用户每天发布的动态信息达到60GB,上传的图片达300GB。在如此巨大的数据背后隐藏着更加巨量的市场机遇和价值,只要具有敏感的数据搜索、挖掘和分析技术,加上高速的数据存取,就能够实时地对用户与用户之间的关系、用户及相关内容的关系,以及内容之间的关系进行深度分析统计,实现快速的状态更新、搜索及推荐功能注:无论是购物网站,还是交友网站,或者其他星座的网站,其产生的信息量和浏览量都以超过传统意义的数量单位增长,其统计的数据产生数量只能是一个参考量。我们引用这些并不可靠的数据不是要说明数据本身的价值,而是想说明无论这个数值如何都是以巨大的数量级在呈现。

拥有亿级用户的社交网络平台已经开拓了大数据的分析业务,为用户提供个性化、智能化的广告推送与实时的服务体验。在这方面,亚马逊作为大数据时代的先行者,能够提供多项服务,帮助企业收集、存储、组织、分析和共享数据;Facebook则向其客户推出广告实时追踪功能,为之创建一个允许营销人员将互动指标与单个Facebook广告活动链接在一起的广告盈利系统;Twitter正式推出广告自助服务,以许可式、自助式进行广告获利。

微博的商业模式更引人注目,其服务方式是在满足企业客户的展示需求之外,还能在微博后台实现真正的社会化客户关系管理,即对真实用户兴趣信息的收集和管理;让客户不用自行解读海量数据,因为微博后台能够将海量数据可视化,为企业搭建良好的营销平台,通过微博页面个性化展示、内容管理、数据分析等营销功能,可以实现全价值在线营销。

由此可以看出,在所有经济层面和行业中,无论是面向个人,还是面向企业集团,无论是社会层面,还是行业层面,大数据处理都将得到广泛应用。

3.大数据市场方兴未艾

无论从哪一个机构的预测看,尽管他们的数据不尽一致,但是总体趋势都是非常令人鼓舞的。民间资本已经对大数据开发表现出按捺不住的巨大热情。根据Wikibon最近发布的报告,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达500亿美元注:与国际数据公司(IDC)的数据比较,显然Wikibon的这个数据更为乐观。但是不论是40%多的增长,还是接近60%的增长,这个速度都是惊人的。。在2012年初,大数据相关软件、硬件和服务的收入总和只有约50亿美元,但随着企业逐渐认识到大数据的意义,相关分析将形成新的差异化竞争优势,并大大提升运营效率,大数据相关技术和服务将获得长足发展,大数据将逐渐落地,并在未来五年保持58%的惊人的复合增长速度注:引自Wikibon 2012年12月发布的报告(www.199it.com/archives/tag/wikibon 2012-12-2)。

1.3.7 大数据市场趋势预测

图1-7数据显示,2012到2017年全球大数据市场预计将由51亿美元上升到534亿美元。

图1-7 Wikibon:2012—2017年大数据市场预测(单位:10亿美元)

图1-82011年大数据收入比例

据Wikibon分析,在2011年大数据产业的51亿美元市场中,软件市场份额为25%、硬件市场份额为31%、服务市场为44%,显示以大数据分析为主的服务比例接近50%,预示未来大数据分析服务市场将越来越大。

基于对大数据技术和市场的前景看好,投资银行JMP Secur证券分析师Greg McDowell表示,大数据工具市场预计将在10年内由2012年的90亿美元增长至860亿美元。到2020年,企业在大数据工具方面的投资将占整体企业信息技术开支的11%。

上述不同机构对大数据趋势的分析,都带有极为乐观的情绪,刺激着国际资本市场“大鳄们”的新一场群雄逐鹿,看来资本的世纪盛宴由此拉开了帷幕。

我们可以看到,国际资本市场纷纷加大了对大数据处理开发领域的投入。美国多家顶级风投和早期投资机构都对大数据行业开始大规模的进入。风投机构Accel Partners还专门针对这一行业设立了一支总额高达1亿美元的基金;以大数据分析为专长的信息技术搜索引擎公司Splunk,在纽交所Nasdaq首日上市IPO即上涨109%;大数据软件提供商Birst公司今年已经从红杉资本、Hummer Winblad和DAG投资等机构获得了2600万美元的投资,累计获得4600万美元的投资;为开源大数据技术Hadoop的商业版本提供销售和支持服务的Cloudera公司,2011年11月从Greylock Partners,Accel Partners等机构获得了4000万美元投资,该公司目前得到的投资总额达7500万美元;此外,MapR,10Gen,DataStax和Splunk等大数据软件服务商近期都完成了千万美元级的融资。

所有这些发展,都对过去一直在信息处理技术软硬件开发方面具有传统优势的企业展现了新的发展机会,而这些技术必然对政府、电信、教育、医疗、金融、石油石化和电力等等行业部门的发展带来新的鼓舞,直接推动各政府部门、行业研究部门和实体经济部门进行产业升级。从美国政府的计划看,大数据开发涉及到社会和经济的各个层面,正因为如此,这个计划一出台就已经不是一个科技创新的计划,而是一个推动美国继续在高技术领域领先的战略计划,同时更是一个推动美国社会经济持续发展的计划。

一场新的通过强力投资推动技术高速发展和经济发展的新的浪潮正在形成。

1.4 大数据引爆思维革命

在最近二十多年互联网的发展中,与信息有关的产业生态环境和产业链都发生了天翻地覆的变化。当我们回顾信息化的历程时,最清晰、最直观的是产品,从交换机、路由器、光纤、手机、电脑……到互联网、信息等等。随后,在递进的另外一个层面,是信息交换、传输、处理、分类、分析。然而,当我们谈论大数据的时候,我们不由自主地突然进入一个抽象的广袤空间,这是一个无法具体描述的数字世界,无穷无尽的大数据世界,一个原来无序、混沌的世界,在数据处理技术面前变得合乎规律、井然有序。

在人类的知识进程中,数学是一个标志。一位著名的哲人说过,一门知识只有当它能引入数学工具的时候,它才成为科学。物理、天文、地理、生物……一个个循序渐进,社会科学以经济学开路,紧接着社会学、心理学等接踵而上。然而,现在的变革是,科学发现进程整个进入到数据探索的时代,科学研究的方法也进入到数据分析的阶段。毕达哥拉斯的神秘的数学世界,突然变得如此现实,在大数据时代,与之相关的社会经济生活方方面面也随之发生重组性的巨变。这一切表明,一场触及灵魂的大革命正在悄悄地行进中,这是思维模式的变革,它在人们的爱好、习惯方面,在情感和价值观念方面,也在学习、知识和科学的本身都留下深刻的印迹。

1.浅阅读下的图文并茂

纪伊国屋书店,坐落在东京闹市区新宿,是日本最大的连锁书店之一。令人惊讶的是在它的畅销书橱窗里,文库版畅销书前10位中,竟有3本是漫画书!用书店店员的说法,就是以年轻读者为主要受众,他们更喜欢使用漫画的语言、采用漫画风格的插画、写作手法随意、阅读起来轻松的“轻小说”。几乎在所有书店的轻小说专区,都可以看到许多学生模样的读者在挑选书籍。这是当前风行一时的娱乐性文学作品。

日本年青一代已经形成了自己的阅读习惯。只有上了年纪的人、上班族才会看报,年轻人主要翻看杂志,还有“轻小说”,看书的时间很少。这是一个“读图时代”。

2.“跟着感觉走”与“不求甚解”

“跟着感觉走”,一度被认为是新生一代不成熟和令人担忧的原因,然而,考察实情并不是那么简单。当大数据扑面而来,人们“读”之不能,弃之可惜的时候,已经难以通过“慢阅读”接受快信息,唯有一目十行而且一览无余的“快阅读”能适应时代的需要。于是,大数据时代的“浅阅读”和“读图族”应运而生。

在中国文明的漫长发展历程中,东晋大诗人陶渊明早已身体力行相当于“浅阅读”或“快阅读”的“不求甚解”读书法,他“每有会意,便欣然忘食”,深刻揭示了读书的“天机”。读书,是为了增长知识,然而,“学而不思则罔,思而不学则殆”,可见读书更深层的目的是为了思想。知识只有被理解,并且运动起来,才成为思想。这就是陶渊明“每有会意,便欣然忘食”的来由。

在传统时代,人们的阅读方式通常是读书,从文字获取知识。进入信息时代,阅读已经出现了变化,那就是多媒体的信息传播和阅读。这自然引出一个结论,如果阅读还是为了吸收知识的话,那么最便利于吸收的方式就是最好的“阅读”方式。而实践证明,声像文字并茂的电子阅读,能够激发人们多种感官的同时活动,能够同时从不同方面吸收知识,化深为浅,一看就懂,比枯燥的引起昏昏欲睡的单纯文字阅读要有效得多。既然如此,大数据时代的阅读革命是不可阻拦的了。

在上述表层现象的描述中,揭示了一个深刻的事实:大数据时代不仅仅带来信息吸收方式的革命,更重要的是,它是颠覆人类生存与发展方式的最伟大的革命,它使人类思维有了新的更为方便、灵巧的载体,使思维得到可持续发展。再进一步,我们将会看到,一旦出现可以保存思维运动或者说是动态的思维的计算机,那么,人类就进入一个自我设计、改造生命并使之永恒的伟大时代,思维的数据化不过是它的前奏而已。

因此,大数据对于思维是一种警示,生活在这一伟大时代的人类,唯有不断发展、提升自己的思维方式,更新自己的思维成果,才能与持续的生命保持一致。因此,终生学习,将是我们这一代的生活方式。

3.超女现象与通俗文化的反思

大数据风暴来临并非突然而至,其实,早在信息化改造历史的时期,在人们的精神领域就出现了对传统的亵渎,而对传统的蔑视和嘲笑往往是新文化的孕母。

几年前,湖南卫视的超女们惊醒了中国,从那时起,一些令人震惊的文艺现象引起人们的注意:网络小说、韩寒与郭敬明热、易中天品三国、于丹解说论语等,次第袭击了传统文化。通俗文化不可阻拦地频频冲击主体的精英文化。自命清高的精英们谈及此类现象,有的激烈抨击、有的冷嘲热讽,但年青一代的精神亢进最终迫使他们的父母承认:这一类现象,不管你喜欢还是讨厌,毕竟是社会的一种探索、前进,与上述“浅阅读”一样是对传统文化模式和思维惯性的冲击。

回顾历史,“文化革命”之类不过是经济和社会革命的精神表现而已。在中国近代史上第一次真正的文化革命是五四运动,那是对传统文化的第一次打击。陈独秀先生在“五四”时期曾大声呐喊,要以朴实通俗的平民大众文化,打倒庸容华贵的贵族文化——由于时代的局限,大众文化打倒贵族文化,在那时是难以实现的空想,只是一种口号和愿望,最终必然流于形式。此后尽管出现了白话运动等等,但文化还是文化人的事。那时的技术手段使得文化只能是少数人的专利,下里巴人的平民文化,只能是茶馆里的小曲、评弹、二人转之类,下得厨房却上不得厅堂。而在信息化时代,特别是伴随着大数据兴起,所有人都有了表现艺术要求的权利和能力,因此,少数人的贵族精英文化终于被大多数人的平民通俗文化PK下去了,通俗文化以主流的姿态登上了大雅之堂。这一现象早在信息化时代就已开始,大数据则将其推向极致。一个新的思维和文明时代从此拉开大幕,不可抗拒地上演了!这是以计算机为代表的信息革命时代,是大数据呼啸而来的时代。

自人类脱离动物界以来,人类进化的重大革命首先是语言的产生。语言使人类可以互相传达思想、感情,由此,分离的个体人,组成了互相依靠的人类。其次是文字的发明,它使人类的文明进步可以代代相传、发扬光大。然而,信息技术的出现是一种颠覆传统的革命,它为人类的信息表达和传播提供了一种简便、准确和高效的形式,这一革命使得文化迅速地普及了,少数专家垄断文化的时代一去不复返了。

读书少、看报少,渐渐远离文字的现象,是一种世界性的现象。据统计,日本的图书销量在1996年至1997年达到顶峰后,长期处于下降趋势。图书销量的减少伴随着国民读书量的减少。20世纪90年代后半期起,一个月内一本书也没有看的人数比例达到50%。日本学生的读书量显著减少,不读书的比例从1985年的10%增加到2005年的40%左右,每月读4本以上书的学生减少了20%。

同样的现象在中国也已司空见惯。

然而,与此相反,“短小轻薄”的读物却很受欢迎。有调查显示,近年来,图文并茂的“轻小说”的流行,提升了年轻人对文字的兴趣,读书量有所增加。影视作品的原著以及根据影视作品创作的小说最近大受欢迎,影视作品“小说化”成为近来畅销书的一个特点。

中国国家图书馆从20 世纪90 年代就跟踪数字阅读的发展。随着国家数字图书馆工程的立项和建设,截至2009年底,国家数字图书馆资源量已达327 百万兆字节(327 TB),其中76%的数字资源已经通过网络提供服务,开展了基于手机、数字电视等新媒体的数字阅读服务。国家图书馆制订了“新媒体数字图书馆服务计划”,推出更多的适合新媒体的内容服务,使国家图书馆的数字资源与服务实现全民共享,把“浅阅读”导向“深阅读”。

远离文字,使很多人担心语言理解力、情感表现力、信息分析能力、思维能力、想象力随之大大降低,但事实上,与此相反的情况也在发生。从阅读载体看,新媒体的出现虽然对传统纸质书籍构成一定挑战,但它从各方面提升了深阅读的潜在渠道和对象。寓教于乐的新媒体介质的出现就是一种前奏。虽然新媒体极大地改变了人们的阅读习惯,但传统纸质图书阅读和新媒体阅读将如何发展,是并存还是新陈代谢,将决定于它们是否与新思维相适应而定。因为阅读最重要的不是通过什么载体来读,而是读什么?怎么读?新技术革命推动了人类生产方式和生活方式的变革,在大数据的冲击下,人类的思维必然要冲破旧的模式。以计算机、网络、电子书刊、视频为载体的认识工具引起了思维主体与客观对象关系的变化,加快了认识和思维进程,从而把人类的认识和思维推进了一个更为广阔的境地。

随着各种分析检测仪器的多样化、专门化、精密化,人类对客体的观察分析也越来越细,使感性认识带有某种程度的理性色彩,呈现出感性认识和理性认识相互融合渗透的情形。而在新媒体环境下,阅读极具个性化,阅读需求和偏好变化迅速。全新的第三代移动互联网以期刊、报纸、图书、音乐、视频、动漫、软件下载等数字化内容为核心,形成集媒体、娱乐与增值服务于一体的多元化移动新媒体平台。读者在享受便捷的阅读方式和多样的阅读内容时,各种视听感官也被充分调动起来。在信息技术高速发展的今天,这些新阅读工具顺应了都市人忙碌的生活节奏,弥补了浅阅读的局限,同时为读者提供了形式丰富的、个性化的阅读体验。新媒体并不排斥旧经典,只是需要新的表现形式。种种迹象表明随着新媒体的发展,将不朽的精品置于不同的新的传播介质上,赋予经典作品以新的表现形式,使之成为人们“喜闻乐见”的新作品,从而在“浅阅读”方式中产生“深思考”也许将是一种趋势。

4.利用媒体报道预言未来事件

据报道,微软和以色列理工学院的研究人员已经开发出一个软件,利用历史数据进行预测。微软研究院杰出科学家及联合主管Eric Horvitz与以色列理工学院博士研究员Kira Radinsky合作进行了这项研究。Horvitz是出于对以往久远的数据的浓厚兴趣来研究这一系统。他相信:“这一系统能预测未来将发生的事。这样的工作将会对人们遭遇的事情产生影响。”Horvitz表示,只要人类的本性和环境大部分没有改变,虽然世界的许多方面发生了改变,这个软件仍然能够从以往的数据中了解事情发生的模式,从而预测未来会发生什么。该系统的信息来自过去22年中《纽约时报》的报道存档,具体时间为1986年至2007年。不过,该系统也利用了网络上其他的一些数据。这些信息来源于有价值的内容,有利于寻找不同事件之间的伴生关系或前因后果相随关系。该系统认为,在预测霍乱爆发方面,应当考虑国家或城市的位置,国土面积有多少是水域,人口密度和GDP是多少,以及近几年是否发生过干旱等。例如,该系统能够推断卢旺达和安哥拉城市之间所发生事件的关系,是因为这两个国家都位于非洲,有着类似的GDP,其他一些因素也很相似。

图1-10 微软的预测系统能根据历史数据预测未来

根据这种方法,在测试中,他们得到了令人惊讶的结果:只要输入历史数据进行测试,就可以相当准确地进行预测。例如,根据过去20年《纽约时报》的文章以及其他在线数据,该系统可以预测传染病可能将在何时何地爆发。根据此前发生的多起事件,该系统了解到在干旱出现的几年后,霍乱爆发的可能性将上升。2006年安哥拉发生干旱,该系统据此预测安哥拉很可能发生霍乱。该系统根据对2007年初非洲大型飓风的报道,再次对安哥拉发生霍乱做出预警。而在不到一周之后,安哥拉确实发生了霍乱。

该系统在其他测试,例如对疾病、暴力事件及伤亡人数的预测中,准确率达到70%至90%。Horvitz表示,该系统还将改进,经过进一步改进,完全可以投入实用,帮助政府救援机构更好地准备救援活动。这项研究还可以扩大,如果将信息来源扩大到更多报纸,甚至是电子书的话,其应用范围和准确率还将提高。

Horvitz和Radinsky并不是最先思考利用网络新闻和其他数据来预测未来事件的人,不过他们使用的数据来源超过90个,这使他们的系统更具有广泛的适应性。

这一类预测工具的市场正在形成。除微软以外,一家名为Recorded Future的创业公司也在采用相似的方法来预测未来事件。该公司CEO Christopher Ahlberg表示,利用“硬数据”来进行预测是可行的,该公司的客户包括政府情报部门注:引自美国麻省理工学院MIT Technology Review。