Spark快速大数据分析（第2版）-编程-[美] 朱尔斯·S. 达米吉 [美] 布鲁克·韦尼希 [印] 泰瑟加塔·达斯 [美] 丹尼·李王道远 -木叶科研通

作者:[美] 朱尔斯·S. 达米吉 [美] 布鲁克·韦尼希 [印] 泰瑟加塔·达斯 [美] 丹尼·李王道远
分类: 编程

毋庸置疑，数据已经成为现代化企业的重要资产，大数据分析技术则是企业挖掘数据价值的核心利器。一直以来，Spark就是大数据分析领域的佼佼者，也已经成为一站式大数据分析引擎的事实标准。

◎ 编辑推荐

☆ Databricks工程师诚意之作，比官方文档更实用的Spark入门教程

☆ 前一版印刷32次，销量超6万册

☆ 新版全面更新，覆盖Spark 3.0新特性

本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark，并了解如何利用它适应这个属于大数据和机器学习的新时代。第2版在第1版的基础上做了大量更新，涵盖Spark 3.0的新特性，并着重展示如何利用机器学习算法执行大数据分析。

○ 学习使用Python、Java、Scala的结构化数据API

○ 理解Spark SQL引擎的原理

○ 掌握Spark应用的优化技巧

○ 了解如...

(展开全部)

◎ 编辑推荐

☆ Databricks工程师诚意之作，比官方文档更实用的Spark入门教程

☆ 前一版印刷32次，销量超6万册

☆ 新版全面更新，覆盖Spark 3.0新特性

○ 学习使用Python、Java、Scala的结构化数据API

○ 理解Spark SQL引擎的原理

○ 掌握Spark应用的优化技巧

○ 了解如何读写数据源：JSON、Parquet、CSV、Avro、ORC等

○ 使用Structured Streaming分析批式数据和流式数据

○ 使用Spark和Delta Lake构建湖仓一体的系统

○ 使用MLlib开发机器学习流水线

◎ 内容简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API，利用Spark SQL进行交互式查询，掌握Spark应用的优化之道，用Spark和Delta Lake等开源工具构建可靠的数据湖，并用MLlib库实现机器学习流水线。

随着Spark从2.x版本升级到3.0版本，本书第2版做了全面的更新，以体现Spark生态系统在机器学习、流处理技术等方面的发展，另新增一章详解Spark 3.0引入的新特性。

◎ 业内佳评

“这本书提供了一种系统学习Spark的方法，并介绍了该项目的发展近况，是Spark开发人员上手大数据的好途径。”

——Reynold Xin，Databricks联合创始人、Apache Spark PMC成员

“对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说，这本书应成为常备指南。”

——Ben Lorica，Databricks数据科学家、Spark + AI峰会项目主席

“在信息化时代，数据已经成为现代化企业的重要资产，大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来，随着开源技术理念的蓬勃发展，开源大数据技术体系已经成为行业的主流选择，Apache Spark就是其中的优秀代表。凭借优秀的架构设计，Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据，加速各行各业实现数字化转型。”

——王峰，花名“莫问”，阿里云开源大数据平台负责人

“转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目，Spark并未逐渐凋零，而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时，也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解，也希望Spark在未来的10年能持续进化，在大数据领域擦出更多的‘火花’。”

——邵赛赛，腾讯专家工程师，数据湖团队负责人

“这是一个数据驱动创新的时代，一个数据改变世界的时代，一个数据成为生产资源和执政资源的时代。Apache Spark是数据分析的事实标准。这本书既是学习Spark的入门指南，也是大数据行业的敲门砖。”

——李潇，Databricks Spark研发部主管，Apache Spark PMC成员

◎ 著者简介

☆ 朱尔斯·S. 达米吉（Jules S. Damji），Databricks的高级开发人员，也是MLflow的贡献者。

☆ 布鲁克·韦尼希（Brooke Wenig），Databricks的机器学习专家。

☆ 泰瑟加塔·达斯（Tathagata Das），Databricks的软件工程师，也是Apache Spark PMC成员。

☆ 丹尼·李（Denny Lee）是Databricks的软件工程师。

◎ 译者简介

王道远，目前就职于阿里云开源大数据平台数据湖存储团队，花名“健身”，主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验，熟悉Spark源码，从2014年开始参与Spark项目，曾为Spark贡献大量修复和新特性，也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。

Spark快速大数据分析（第2版）

标签