上QQ阅读APP看书，第一时间看更新

序言

丛书设计

大数据已经悄无声息地改变了我们的生活和工作方式，精准广告投放、实时路况拥堵预测已很普遍，在一些领域，人工智能比我们更加聪明、高效，未来的个性化医疗、教育将会真正实现，大数据迎来前所未有的机遇。Google公司2003年开始陆续发表的关于GFS、MapReduce和BigTable的三篇技术论文，成为大数据发展的重要基石。十几年来大数据技术从概念走向应用，形成了以Hadoop为代表的一整套大数据技术。时至今日，大数据技术仍在快速发展，基础框架、分析技术和应用系统都在不断演变和完善，并不断地涌现出大量新技术，成为大数据采集、存储、处理、分析、可视化呈现的有效手段。企业需要利用大数据更加贴近用户、加强业务中的薄弱环节、规范生产架构和策略。对数家企业的调查显示，大数据工程师应该掌握的技能包括：Hadoop、HDFS、MapReduce、Hive、HBase、ZooKeeper、YARN、Sqoop、Spark、Spark Streaming、Scala、Kafka、Confluent、Flume、Redis、ETL、Flink/Streaming、Linux、Shell、Python、Java、MySQL、MongoDB、NoSQL、Cassandra、Spark MLib、Pandas、Numpy、Oozie、ElasticSearch、Storm等，作为一名大数据领域的初学者，在短时间内很难系统地掌握以上全部技能点。“大数据核心技术系列”丛书根据企业人才实际需求，参考以往学习难度曲线，选取“Hadoop+Spark+Python”技术集作为核心学习路径，旨在为读者提供一站式、实战型大数据开发学习指导，帮助读者踏上由开发入门到实战的大数据开发之旅！

“大数据核心技术系列”以Hadoop、Spark、Python三个技术为核心，根据它们各自不同的特点，解决大数据中离线批处理和实时计算两种主要场景的应用。以Hadoop为核心完成大数据分布式存储与离线计算；使用Hadoop生态圈中的日志收集、任务调度、消息队列、数据仓库、可视化UI等子系统完成大数据应用系统架构设计；以Spark Streaming、Storm替换Hadoop的MapReduce以实现大数据的实时计算；使用Python完成数据采集与分析；使用Scala实现交互式查询分析与Spark应用开发。书中结合大量项目案例完成大数据处理业务场景的实战。

在夯实大数据领域技术基础的前提下，“大数据核心技术系列”丛书结合当下Python语言在数据科学领域的活跃表现以及占有量日益扩大的现状，加强了对Python语言基础、Scrapy爬虫框架、Python数据分析与展示等相关技术的讲解，为读者将来在大数据科学领域的进一步提升打下坚实的基础。

丛书特点

1. 以企业需求为设计导向

满足企业对人才的技能需求是本系列丛书的核心设计原则，课工场大数据开发教研团队通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析，实现对技术的准确定位，达到课程与企业需求的高契合度。

2. 以任务驱动为讲解方式

丛书中的知识点和技能点均由任务驱动，读者在学习知识时不仅可以知其然，而且可以知其所以然，帮助读者融会贯通、举一反三。

3. 以实战项目来提升技术

本丛书均设置项目实战环节，以综合运用书中的知识点帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。

4. 以“互联网+”实现终身学习

本丛书可配合课工场App进行二维码扫描，来观看配套视频的理论讲解和案例操作，同时课工场在线开辟教材配套版块，提供案例代码及案例素材下载。此外，课工场还为读者提供了体系化的学习路径、丰富的在线学习资源和活跃的学习社区，方便读者随时学习。

读者对象

1. 大中专院校的学生

2. 编程爱好者

3. 初中级程序开发人员

4. 相关培训机构的老师和学员

读者服务

学习本丛书过程中如遇到疑难问题，读者可以访问课工场在线，也可以发送邮件到ke@kgc.cn，我们的客服专员将竭诚为您服务。

感谢您阅读本丛书，希望本丛书能成为您大数据开发之旅的好伙伴！

“大数据核心技术系列”丛书编委会

本周热推：

Photoshop CS3特效处理融会贯通电脑上网直通车基于单片机的嵌入式工程开发详解单片机应用技能操作和学习指导数据库原理与应用技术学习指导