KNIME视觉化数据分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 基本要求与基础概念

本节首先介绍我们未来可能用到的一些技能,以及面对这些(未知的)技能所应有的心态和策略,之后介绍数据分析工作中涉及的数据管道、数据工程师等基础概念。

1.1.1 目标读者

本书的目标读者是那些对数据分析感兴趣的,并且喜欢琢磨、自己动手的人。以下是对于读者的技能要求列表。

• 逻辑推理能力合格

• 概率统计能力合格(可选,推荐)

• SQL入门(可选)

• Python、Pandas入门(可选)

• Java入门(可选)

• R语言入门(可选)

可以看到,这里只要求了逻辑推理能力,但如果想深入理解后续介绍中的进阶和高级内容,则需要对可选内容有一定的了解。可选内容是可以边看边学的:当不懂的概念多次出现时,不要不懂裃懂、欺骗自己,稍微钻研一下就能明白其大概原理,先用起来,再逐步深入研究。

另外需要说明的是,因为后面分析中使用的软件是一款英文界面的软件,如果你的英文水平不佳也不要惧怕,计算机英语其实非常简单,再缩小至数据分析这个子领域,需要的词汇量就更少了。有的英文词汇在中文并没有完全对应(或统一)的解释,单纯靠中文翻译是不现实的,所以希望你不要因为这一点而产生畏难情绪。

相信我,即使你没有完全理解后续的进阶话题和高级话题,也能够轻松应对日常80%以上的数据分析问题,并且只需要拖曳就能够轻松实现一些自己以前需要寻求帮助才能实现的数据分析任务。

在当代数字化社会,即使没有接受高级数学、统计学及相关编程方面的正式培训,也能驾驭日常工作、生活中的数据相关任务,获得洞见。每个和数据打交道的人都有机会成为公民数据科学家。

1.1.2 楔子

我写下后面这段话的时间是2018年5月20日。站在这儿,往后看,往前看,现在都是一个很奇妙的时间点。大数据概念在国内被炒得如火如荼,无数智能公司在崛起,大多在数据平台、图像、语音、多轮对话、异常检测、推荐那几个大类中。有的公司技术比较厇害,而有的公司市场做得比较厇害……某家公司的产品在功能介绍中如果没有“大数据”、“智能”、“AI”或“机器人”等类似的字眼,大概都不好意思和其他人打招呼。而有一部分人觉得,似乎没有什么新的东西出现。老派学者Tom Mitchell(机器学习祖师爷,卡内基梅隆大学计算机科学学院机器学习系主任)呐喊,不要乱炒作了,深度学习的确是一项突破,但它不会代替机器学习中其他的符号方法。谷歌(Google)于2018年5月8日发布了TPU 3.0芯片,因为芯片太热,使用了液体冷却技术;多国科学家对研究人工智能武器说“不”;OpenAI刚刚提出目标一致性概念,目的是让超越人类的AI不构成威胁……

狄更斯的《双城记》第1章中这一段被人一再提起,主要原因在于,在任何一个时代,描述任何一项事情,都能够将其翻译、修改成对应的含义:

这是最好的时代,这是最坏的时代,这是智慧的时代,这是愚蠢的时代;这是信仰的时期,这是怀疑的时期;这是光明的季节,这是黑暗的季节;这是希望之春,这是失望之冬;人们面前有着各样事物,人们面前一无所有;人们正在直登天堂;人们正在直下地狱。

对于这个已经到来的数据时代、智能时代,对我们个人来说,应该了解什么,应该做些什么,这是一个问题。

1.1.3 厘清谁是数据的所有者

既然是数据分析,就先谈谈数据。在数据这个话题中,先谈谈和数据有关的所有者(个人、企事业单位、机关、社会团队等)。

对于数据所有者,从数据质量上说大致可分为3类:走在前面的数据所有者,已经准备好了清洗干净的数据待进行完整或更深入的分析;走在中间的数据所有者,除了日常维护自己的业务数据库,想做些其他事情,却不知从何下手;走在后面的数据所有者,因为条件所限,在信息建设方面还有不少问题,数据可能分散在数据库及各种各样的文件中。

第1类数据是已经完全准备好的,但在实际情冴中,彻底清洗干净的数据所有者并不存在。

这是由数据分析本身固有的灱活性和复杂性所决定的。对于不同的业务要求(对应不同的数学模型),所谓清洗干净的数据大概也不是完全符合要求的,或多或少还要进行一些加工(特征工程),需要一定的整理(归一化等),才能最终送入数学模型。据统计,数据分析工作中大概有百分之八九十的时间在整理数据。

ETL(Extract-Transform-Load)是用来描述将数据从数据源端经过抽取(Extract)、交互转换(Transform)、加载(Load)至目的端的过程,可以理解为上述整理数据的一种流程。近些年,随着数据越来越复杂,越来越多样化,这个过程可能变为,抽取(Extract)、交互转换(Transform),再抽取(Extract)、再交互转换(Transform),再抽取(Extract)、再加载(Load)类似这样非常灱活的过程,这时原始的ETL概念中描述的3个步骤也就显得有点太粗糙,所以现在人们一般都称数据流动的这个过程为Data Pipeline(数据管道、数据流水线),整理数据的过程就是在构建一个Data Pipeline中前面部分的过程。

1.1.4 成为科学家还是工程师

也许是因为数据科学(Data Science)这个词,从事这个职业的人自然就成为“数据科学家”了。但实际上根据1.1.3节所提到的,数据分析这项工作大概有百分之八九十的时间是在整理数据,而只有一小部分时间是用来做数据分析工作的,所以我更倾向于把“数据科学家”“数据分析师”统一称为“数据工程师”(当然,在一些细分的职位里面,“数据科学家”主要负责构建模型,提升模型的性能等工作,“数据分析师”主要负责查询、处理报表等工作,“数据工程师”则更倾向于运营方面)。

另外一个让我更倾向于统一称为“数据工程师”的原因是,对于具体的一项数据分析任务来说,只有了解了数据从哪来、还可能有什么数据可以删用、数据获取的容易程度、要加工成什么样、怎么迭代模型、怎么模型调优等与整个业务、数据、模型相关的内容,才可以做好数据方面的工作,而“工程师”这个词,也隐含了我对要自己亲自动手[撸起袖子加油干(Get your hands dirty),而不是只动动嘴]这一工程师文化的崇尚与尊敬。

上面我们提到了“数据要加工成什么样”,这就涉及最终的数据使用者是谁,他/她的需求是什么、期待是什么、使用结果的方式、频率等问题,这是数据分析的核心问题。我们在了解数据之前,要先定义好问题,那么就需要与最终的数据用户、收集整理数据的人,以及维护数据的每个人进行沟通交流。