特写 Feature 分析
如何更好地
向决策者解释
数据科学
DATA SCIENCE & THE ART OF PERSUASION
斯科特·贝利纳托(Scott Berinato)| 文
牛文静 | 译 蒋荟蓉 | 校 李源 | 编辑
企业搜集了大量数据信息,从中分析出有用的洞见,但找不到合适的方法传播知识。本文将阐述问题所在和应对之道。
核心观点
问题
面对分析技术的热潮,企业尽全力招聘最优秀的数据科学家为其效力,但很多并未收获期待中的价值。
根源
如果你希望分析性项目带来价值,团队必须首先能够提出明智问题,整理相关数据,从中梳理出洞见。其次,团队要弄清这些洞见对公司业务的意义,以及如何向决策者阐述这些意义。具备两种能力的人才很罕见,多数数据科学家擅长第一类而不是第二类工作。
解决
优秀的数据科学团队需要6类才能:项目管理、数据整理、数据分析、学科知识、设计和阐述能力。汇聚了相关人才的团队才能实现公司分析技术所承诺的价值。
数据科学正在迅猛发展。企业在过去五年间,投资数十亿美元,网罗最有才华的数据科学家,在他们的帮助下开实体店,搜集了以泽字节计算的“原料”,通过算法找出喧嚣数据中隐藏的有用信号。从某种程度上说,这种做法是有效果的。在诸如翻译、零售业、医疗和篮球运动等众多领域,数据改变了现有关系。
虽有成功案例,但很多企业仍未能从数据科学中获得应有价值。即使企业运营良好,分析效果出色,依然无法将洞见转化为利润。问题出现在最后环节——数据部门向决策者讲述这些洞见时存在不足。
Kaggle公司2017年针对7000多名数据科学家的调研结果表明,前七个“工作障碍”中有四个和最后环节有关,并非技术问题,其中包括“缺乏管理/财务支持”“解决的问题不够清晰”“决策者对结果不予使用”以及“向其他人解释数据科学”。数据科学家雨果·鲍恩-安德森(Hugo Bowne-Anderson)在他的播客中采访了35名数据科学家,得出与上述调研一致的结论,并于2018年刊登在HBR.org网站,“我的大多数客户告诉我,数据科学家的关键技能是在工作中学习,提高沟通能力,以便回答商业问题,向非技术利益相关方解释复杂的分析结果。”
我在大型机构讲授数据可视化(dataviz)和说服沟通,并提供咨询,数据科学家和高管都向我表达过他们的挫败。数据团队知道自己手握有价值的洞见,但就是无法推销出去。他们认为决策者误解或过度简化了他们的分析,对他们有不切实际的期待,认为他们能回答出所有问题。而高管则抱怨自己斥巨资研发数据,结果却无法得到期待中的指导性结果。高管看不到切实的结果,是因为数据团队没有用他们能理解的语言向其解释这些结果。
商业和技术之间的鸿沟早就存在,但隔阂正在加深。105年前,还没有出现编程和计算机时,威拉德·布林顿(Willard Brinton)在他里程碑式的著作《用图表法陈述事实》(Graphic Methods for Presenting Facts)中描述了最后环节的问题,“这事已经屡见不鲜,掌握事实的技术人员深思熟虑后提交了计划,但某个无知专横的委员会成员或董事会成员让他乱了阵脚,因为他没能充分准备好应对这些反对之声……数据和有效陈述之间的关系,相当于大教堂和地基。”
一个多世纪过去了,为什么情况还是这样?最后环节的问题根源盘根错节,不一而足。首先,研究人员使用的工具含有可视化功能,这让大家觉得数据科学家应当承担起沟通责任。这些工具的默认功能比不上构思精细、设计优美的数据可视化,导致数据处理结果和可视化程度不匹配,数据科学家一般也不愿意沟通。很多数据科学家告诉我他们警惕可视化,因为这会简化其成果,掩盖科学分析的细微之处和不确定性,误导高管得出简单化的结论。但是,企业在争夺炙手可热的数据科学家时,重点放在他们能找到的最优秀的技术导向型人才,并没有考虑到他们和外行沟通的能力或意愿。
如果企业雇用其他人才来填补断层也可以,但现实并非如此。企业希望科学家整理数据,在了解公司业务和战略的情况下分析数据、制作图表、对外行解释这些数据的意义。这并不合理,同时具备这些才能的人很罕见,属于独角兽。
要想解决最后环节的问题,企业必须停止寻找独角兽,开始思考数据部门所需的人才配置。本文为这些企业提供了一种解决之道,停止对数据科学家不切实际的期待,招聘新类型员工作为补充。解决问题需要跨学科团队,包括在相近领域工作的不同类型人才。让员工通过了解他人的工作培养同理心,从而进行互补性合作。工作不再在不同团队间传递,而是共同完成。
团队工作法并非新事物,此处是旧法新用,可以帮助数据科学团队跨越最后环节的障碍,交付为组织创造的价值。
背后的原因?
20世纪早期,现代管理学先驱为了通过可视化沟通将数据转化为决策,进行了复杂操作,通过跨学科团队完成,其中包括复穿孔机操作员、卡片分拣员、管理者和制图人员(当时几乎都是男性)。布林顿书中提到很多这类协作。铁路公司和大型制造公司尤其娴熟,他们了解了如何通过工厂找出最高效的配送原材料路线,实现区域销售绩效目标,以及优化节假日安排。
沟通是如何失效的
在工作中我发现,多数领导者承认数据科学能创造价值,但很少有人满意其交付方式。一些数据科学家抱怨老板不理解他们做的事情,自己的价值没有发挥出来。一些管理者抱怨科学家无法让外行听懂他们的工作内容。
总的来说,我听到的故事符合以下情境之一。看看你是否似曾相识。
统计学家的诅咒
掌握了先进算法和优质数据的一位数据科学家研究出一系列洞见,详细展示给决策者。他认为自己的分析客观,不容置疑。通过“一键可视化”,在幻灯片上添加一些文字,结果以图表方式呈现。他认为,严肃的统计学家不应在设计上花太多时间。他在陈述中使用了听众不熟悉的语言,令他们感到费解和挫败。他的分析完全正确,但是建议并未被采纳。
工厂和领班
一位商业利益相关方想通过一项宠物项目,但是缺乏数据支持自己的假设。他让数据团队进行分析,并为他的陈述准备图表。团队知道他的假设存在问题,并提出了更好的分析方法,但他只需要图表和发言稿。可能会发生的结果是:当有人问起数据分析,他无法给出答案,会议泡汤;或者他的项目通过了,但是由于分析有缺陷,最终失败。
“更容易”的真相
一位一流信息设计师觉得公司数据科学家的某个分析很有启发,主动提出帮助他们制作精美的董事会陈述内容,配色和排版极具个人特色,故事能引起共鸣、便于理解。但是当高管开始从分析中得出错误想法时,科学家感到紧张。清晰、简化的图表让一些元素产生了并不存在的直接关系和效果,并隐藏了数据分析内在的不确定性。科学家左右为难:决策者终于对他们的成果感到兴奋,但兴奋的内容却被曲解了。
团队工作法贯穿了整个20世纪。在玛丽·埃莉诺·斯皮尔(Mary Eleanor Spear)1969年出版的著作《实用图表技术》(Practical Charting Techniques)中,作者详细描述了理想团队的组成,包含沟通者、图表分析师和制图员(仍然是男性占多数),以及他们的责任。斯皮尔写道,“(三者)合作是明智选择。”
20世纪70年代开始出现分裂。科学家纷纷使用新技术,利用技术他们可以在处理数据时(通过计算机程序)视觉化数据。很快他们不需要其他人帮助,可以独立制作出未经打磨的图表。在数据可视化的世界,计算机驱动的视觉化和更加经典的制图人员(终于有了更多女性参与)设计驱动的视觉化之间出现了裂缝。
Chart Wizard是微软在Excel表格上的创新功能,可以“一键视觉化”,彻底分割了这两个世界。忽然间,随便什么人都能立刻做一个表,辅以过犹不及的各种变形,把柱状图做成三维的或者将饼状图弄得跟甜甜圈一样。其影响之深远怎么强调都不为过,它让表格成为了商业通用语,在运营中融入了数据应用,最终发展出数据科学,因为它突破了设计师将数据转化为视觉化工作量的下限。更关键的是,它改变了工作的结构。设计师,即制图人员被低估,最终消失在数据分析领域。视觉化成为数据管理人员的工作,他们大多既没有受过视觉化培训,也不想学习这些知识,相比更耗时、需要更多资源、设计主导的视觉化过程,在陈述中粘贴一个Chart Wizard图更快速便捷,即使前者效果明显更好。
数据科学出现后,虽然从业人员的必备技能已经拓展到包括编程、统计学和算法模型,但大家对数据科学家的期待仍和过去一样——处理数据并向外界解释成果。在《哈佛商业评论》2012年关于数据科学家里程碑式的文章中,将数据科学称为21世纪最性感的工作,用“独角兽”词汇来模糊描述这一职业:“成功的数据科学家应当具备哪些能力?TA的能力包含了数据电脑黑客、分析师、沟通者和可信赖的顾问。这种组合非常强大,且罕见。”
因此,在招聘这一最炙手可热的职位时,很多公司难以找到所需人才,不得不另辟蹊径。最佳方式就是改变他们对数据科学家技能组合的要求,招聘具有不同能力的人才组成团队。
打造更优秀的数据科学团队
基于团队合作的高效数据运营可以借鉴布林顿和斯皮尔的例子,但也要考虑现代商业环境,包括需要处理的数据量、自动化系统、视觉化技能的发展。
此外,项目类型也发生了变化,包括标准分析学数据的简单报告(例如财务结果),以及使用最前沿的机器学习算法的复杂大数据工作。
我们将在下文介绍打造团队的四个步骤:
1.定义能力,而不是团队成员。你可能觉得,在拆解独角兽思维时,第一步理应是将“完美”数据科学家的职能分配给不同的人:数据处理人员,数据分析师,设计师和沟通者。
其实并非如此。与其将人员分配到不同职位,不如找出成功所需的能力。一种能力不等于一个人,可能一个或多个人都拥有这项能力。一个人可能拥有几项才能,三个人可能有五项才能。在项目处于不同阶段时,让团队能够灵活配置或重新配置人员时,这是一个微妙但很重要的区别。(稍后我们会展开说)
每家公司所需的能力不同,但核心包括以下六种:
项目管理。根据项目类型和阶段,团队要足够敏捷,随时调整,采用类似敏捷开发的方法,会涉及运营的各个方面。一名优秀的项目经理要有出色的组织能力和强大的外交技能,通过在会议上弥合不同人才之间的文化鸿沟,让团队成员彼此顺利沟通。
数据整理。这种能力包含以下技能:构建系统;搜集、处理、结构化数据;创建并维护算法和其他统计引擎。懂得整理数据的人才会寻找机会优化企业运营,例如,他们会针对多个项目构建可重复流程,或创建模板,获得可靠、可预测的视觉输出,用于启动信息设计流程。
数据分析。这种能力是提出假设并验证,在数据中发现意义,将其应用于具体的商业环境中。这点在很多数据科学运营中体现不足。一些机构非常倚重数据整理人员,让他们兼做数据分析。但是优秀的数据分析与编程和数学分离。这种能力往往出现在人文科学而不是计算机科学中。软件公司Tableau认为,2018年分析学方面最大的趋势之一是人文和数据分析的融合。人文学科中的一些核心学习能力,包括批判性思维、情境设定等,恰好也是分析、数据方面的核心技能,反之亦然。在关于这个话题的一个网络课程中,Tableau研究科学家迈克尔·科雷尔(Michael Correll)解释了为什么他认为数据科学和人文科学的融合很关键。“将数据和人类分开是不可能的,”他说,“人文科学擅长帮助我们深入情境之中,通过某种方式体现出人类的存在,技术在这方面可能有所缺失。”
学科知识。过去大家常说,数据科学团队在地下室埋头做着晦涩的神秘工作,仅在公司需要时浮出水面。现在已经不是这样了。数据科学不该被视作服务部门,团队应有管理层加入。掌握业务和战略的高管在项目设计和数据分析时可以担任顾问,让团队将精力放在产出业务结果,而不仅仅是构建最佳统计模型上。杰奎因·坎德拉(Joaquin Candela)是Facebook公司应用机器学习部门的领导,他的工作是让团队集中精力改善商业结果而非数据科学,并奖励有利于这些结果的决策。
设计。很多人误解了这种才能。优秀的设计并非善于选择颜色和字体,或者作出精美的图表。这些属于风格,并非设计中最重要的部分。富有设计才能的人会研究并开发出能够有效进行视觉交流的系统。在数据科学方面,他们懂得如何针对受众创造和编辑视觉图像,帮助他们提取信息。特别擅长理解和处理数据视觉化的信息设计才能对数据科学团队非常重要。
叙事能力。叙事是人类非常强大的发明,也是数据科学中利用最为不足的一项能力。
弥合算法和高管之间沟通鸿沟的最重要能力,就是用讲故事的方法阐述数据洞见。“用数据讲故事”,是一个老生常谈的词,但被很多人误解了。它绝不是让讲述者变成史蒂芬·金(Stephen Kings)或者汤姆·克兰西(Tom Clancys)(两位均为美国畅销书作家——编者注),而是理解阐述的原理和结构,并将其应用在数据可视化和业务陈述中。
2.配置必要的能力组合。一旦你找到所需能力,无需让招聘团队觉得这是需要一一对应的职位。只要团队中的人具备这些能力就可以了。有些能力是相伴而生的:例如设计和阐述能力,或者数据整理和数据分析,可能会在一个人身上出现。
有时候员工不具备某项能力,但是可以外包。我在工作中会储备一些智囊团,他们在我能力欠缺的领域是专家。比如说,可以联系一家信息设计公司,或者外包一些数据整理工作,以预处理和结构化新数据流。
区分人才和能力,会帮助公司解决最后环节的问题,这样他们就不会试图寻找既懂数据科学又会沟通的人。数据科学家在出色的设计师同事的帮助下,可以专注自己擅长的事。之前可能被忽视的人也因此有了新机会。例如某个擅长设计的程序员,在这种情况下就能发挥作用。
Life Epigenetics公司首席数据科学家和Reddit频道“数据之美”(分享和讨论优秀的数据视觉化)的策展人兰德尔·奥尔森(Randal Olson),曾经只关注数据科学的技术部分是否出色。“刚入行时,我完全不重视沟通的部分。”他说,“我觉得这是个普遍问题。”现在他会在某些情况下改变招聘流程,“你知道,候选人进来后我们马上在白板开始建模和数学,”他说,“这是数据科学家之间的沟通方式。但现在我有时候会找一个非技术人员,让候选人‘向这个人解释一下这个模型’。”
数据沟通所需的核心能力
以下我们介绍在数据科学项目的不同阶段:从搜集数据、研究洞见,到向利益相关方展示,不同能力发挥作用的方式
3.让团队成员和其他成员接触,了解自己不具备的能力。要想避免文化冲突,我们要想办法理解他人的体验。设计人才往往接触不到统计学或者算法,而是专注于设计美学方面的打磨、简化、明晰和阐述。设计师很难充分表现数据成果的深度和复杂性,而另一方面理性的数据科学家重视客观性、统计的严谨性和全面性,沟通对于他们来说不但陌生而且是种干扰。“这不符合他们的气质,”一家大型科技公司数据部门的管理者说,“我在数据行业干了十年,一直都是这种方式,但是当我必须打造一个团队时,过程大开眼界。我发现哪怕是稍微学习下关于沟通的内容,也会让我们的业务获得更多支持。”
很多方法可以让团队成员看到他人才华的价值。设计师应该学习一些基础的统计知识,例如参加入门课程,数据科学家也可以学习一些基本的设计原理。彼此都不需要成为对方领域的专家,只要达到能够理解对方的程度即可。
不同人才都应列席敏捷开发“站会”等会议。司克兰模式(Scrum)敏捷开发的站会多数是为了讨论公司最新技术进展,营销部门的员工也可以参加并进行业务陈述,奥尔森的公司就是这么做的。学科专家应该让数据整理和分析人员参加战略会议。利益相关方和数据团队沟通的专门会议也能够促进彼此的理解。StitchFix的首席算法官埃里克·科尔森(Eric Colson,在一家由数据科学驱动的公司,他兼具统计学知识和沟通能力,非常接近独角兽)让团队成员向非技术受众进行一分钟的业务阐述,强迫他们以大家都能理解的方式解释问题。“迄今为止,”科尔森说,“如果你提到‘椰子’,公司的人都知道这是某人用来描述他在解决的某个统计学问题所用到的比喻。我们努力以大家都能理解的方式来讲述,因为公司不会做它不理解的事。”数据学团队的另一位管理者整理了技术人员和设计人员使用的词汇表,帮助大家了解彼此的语言。
如果你所在的机构拥有像科尔森这样兼具数据和沟通、设计才能的罕见人才,可以让他们来指导他人。如果员工表示希望能够学习自己不会但企业需要的知识,应当鼓励,即使这种能力(例如设计技巧)和他们已经掌握的能力(数据整理)相去甚远。在我的工作坊,数据科学家说他们想要提高自己的设计或者阐述能力,但是没有时间去做。其他人也希望团队有这样的能力,但是他们的项目管理主要关注技术成果,而非商业成果。
所有交流都是为了能力不同的团队成员彼此共情。共情会带来信任,这是团队高效合作的必要基础。科尔森说又一次他使用叙事能力,帮助解释数据分析的一项成果:“我记得有一次我们在进行一个产品促销问题的业务陈述,我们认为公司当时的思路有问题。我希望促销和销售团队相信我们所说的。”他没有通过解释贝塔二项式分布等统计学概念来支持自己的观点,而是讲述了一个某人试图从缸中取球,随着时间推移,缸中球的种类和数量发生变化的故事。“大家很喜欢这个故事,”他说,“你能感到屋子里面的人对这个故事有共鸣,这让他们对我们有信心,已经无需解释背后的数学逻辑,我们赢得了信任。”
4.根据能力安排项目。有了不同的能力组合,就可以用这些能力实现目标。项目何时需要什么样的能力是不断变化的,这让项目变得棘手。出色的项目管理技能和敏捷方法的经验会在配置和重新配置能力、按需配置资源,确保整个流程按计划执行中发挥作用。
不可或缺的其他步骤
项目想成功,还需要其他步骤。
任命一位获得授权的利益相关者。数据团队可能并不管理所有所需人才。设计人才也许效力于营销部门;学科专家可能是向CEO汇报的高管。尽管如此,仍然需要尽可能多的给他们决策权。利益相关方往往是具有商业专长,对商业目标负责或关系密切的人。毕竟,数据科学的终极目标是为了取得更好的商业结果,这些人能够为团队创造共同目标和激励因素。如果团队和几位各执己见的利益相关人打交道,你可能会陷入有责无权的境地。理想状况下,你可以借此避开这种情况。
任命主要负责人和支持性员工。团队由谁带头,谁负责提供支持,取决于项目类型和所处阶段。例如,在深度探究性项目中,公司需要处理并视觉化大量数据,以便发现规律,此时由整理数据和分析数据的员工负主要责任,学科人才提供支持,由于不需要和外部沟通,可能不需要设计人员参与。相反,为董事会准备报告,提交证据支持战略调整建议时,则由叙事和设计人员负主要责任,数据人员提供支持。
同地办公。在完成项目的过程中,让所有团队成员在同一个办公场所工作。再建立一个网上共享空间,供大家交流协作。如果设计和叙事人才使用Slack办公,技术团队使用GitHub,商业专家通过电子邮件沟通,这种情况并不可取。可以使用“配对分析”法,团队成员坐在一起,在同一台电脑前工作,像敏捷开发中的迭代过程那样。比如说数据整理和分析人员一起调整数据模型,测试假设,或者具有学科专长和叙事能力的人,共同完善一个业务陈述,在需要调整图表时叫设计人员来帮忙。
成为真正的团队。同地办公最关键要保证团队作为整体有力量。在Stitch Fix,“我们的规则是不允许‘传球’,”科尔森说,“我们不想在不同部门之间协调三个人。”为此,他首先确保团队在外部支持有限的情况下,拥有实现目标所需的全部能力。他还尝试雇用那些大家称为通才的人,兼具技术和沟通能力的人才。工作中,数据科学家需要叙事,或者学科专家需要理解一些统计学原理,在这类情况下,科尔森通过不断反馈强化了这一模式。
重复使用并建立模板。科尔森还创造了一个“算法UI团队”,即结合了设计才能和数据整理才能的一组人,编出可重复使用的代码,让项目团队得以创造出优秀的数据可视化。这类模板对团队的高效运营非常重要。比如说,通过代码,将信息设计师和数据分析师之间关于最优视觉化的对话固化下来,成为工具。格雷汉姆·麦克唐纳(Graham Mac-Donald)是Urban Institute的首席数据科学家,他成功地建立了很多这样的模板。他的团队为美国很多县制作县级数据。通过结合数据整理和学科专长,理解沟通需求,该团队打造了一个可重复使用的模板,为任意一个县制作出定制化的结果。如果没有团队对不同能力的整合,是很难做到这点的。
最后环节,也就是向外行解释数据科学,进化发展得不像数据技术那么快,或者说那么全面。这点必须尽快得到解决,要重新思考如何组建和管理数据团队,以及从第一个数据流到最后向董事会展示的图表——流程的每个节点由谁参与。数据科学团队如果不能成功跨越“最后一公里”,将无法履行对公司的承诺。用威拉德·布林顿的话说,他们会建起地基,但不会有大教堂了。
斯科特·贝利纳托是《哈佛商业评论》英文版高级编辑,著有《Good Charts Workbook: Tips, Tools, and Exercises for MakingBetter Data Visualizations》(哈佛商业评论出版社,2019年即将出版)以及《Good Charts: The HBR Guide to Making Smarter, More Persuasive Data Visualizations》(哈佛商业评论出版社,2016年出版)。