发布时间:2023-12-03 14:40来源:www.sf1369.com作者:宇宇
《大数据Spark企业级实战》本书共包括14章,每章的主要内容如下。
第一章回答了为什么大型数据处理平台都要选择SPARK。为什么spark如此之快?星火的理论基础是什么?spark如何使用专门的技术堆栈来解决大规模数据处理的需要?
第二章回答了如何从头构建Hadoop集群的问题。如何构建基于Hadoop集群的星火集群?如何测试火星的质量?
第三章是如何在一个集成开发环境中开发和运行星火计划。如何开发和测试IDA中的spark代码?在这4章中,RDD、RDD和spark集成战斗用例API的作用类型将用于实际的战斗RDD。
第四章分析了星火独立模式的设计与实现、星火集群模型和星火客户端模式。
第五章首先介绍了spark core,然后通过对源代码的分析,分析了spark的源代码和源代码,仔细分析了spark工作的整个生命周期,最后分享了spark性能优化的内容。这说明了一步一步的火花的特铅返点是使用了大约30个实际案例,并分析了spark GraphX的源代码。
第八章,在星火SQL实践编程槐袜饥实践的基础上,详细介绍了星火SQL的内容。
第九章讲了从快速启动机器学习前9章,MLlib的分析框架,基于线性回归、聚类,并解决协同过滤算法,源代码分析和案例启示MLlib一步一步,最后由基本MLlib意味着静态和朴素贝叶斯算法,决策树分析和实践,进一步提高的主要引发机器学习技巧。
第十章详好枣细描述了分布式存储文件系统、超轻粒子和超轻粒子的设计、实现、部署和使用。
第十一章主要介绍了火花流的原理、源代码和实际情况。
第十二章介绍了spark多语种编程的特点,并通过实例介绍了spark多语言编程。最后,将一个综合的例子应用到spark多语言编程的实践中。
第十三章首先介绍了R语言的基本介绍和实践操作,介绍了使用sparkr和编码的火花,并帮助您快速使用R语言和数据处理能力。
在第十四章中,详细介绍了电火花放电的常见问题及其调谐方法。首先介绍了14个问题,并对它们的解决方案进行了优化。然后,从内存优化、RDD分区、对象和操作性能优化等方面对常见性能优化问题进行了阐述,最后阐述了火花的最佳实践。
附录从spark的角度解释了Scala,并详细解释了Scala函数编程和面向对象编程。
我来推荐推荐吧~
今天的市场上有那么多的 Spark 书。
本文梳理比较值得关注的 Spark ,图书市场上,重要的是要注意,这些书都写基于 Spark 0.9或1.0,一定距离最新版本的 Spark ,这是因为图书出版周期长。技术资料,完成(书籍内容已经完成,和修改后的)最后的距离)也需要3个月上市,这意味着,这本书的内容可能不是最新的,三个月后,可能已经发布了N版本,特别是对于 Spark 源代码分析书,将会变得更糟。
目前,Spark books主要是由做平台的人编写的,
这些人非常了解Spark原理,所以这些书是由内部原理来分析的。如果您想要闭散找到一本关于spark的书,它应用了实际的战斗类型,特别是程序开发、程序优化和案例皮早分析,我很抱歉,但它仍然是空白的。《 Spark 大数据处理技术》以 Spark 版0.9为基础,是对Spark和Spark生态系统相关技术书籍的全面介绍,是国内第一个深入介燃态雀绍Spark原理和技术书籍的架构。
主要内容包括Spark基本功能介绍和内部重要模块分析,包括部署模式、调度框架、存储管理和应用监控;此外,还详细介绍了生态系统和其他软件模块的Spark,包括Shark和Spark SQL SQL处理引擎、流处理引擎Spark流图、图形计算框架和Tachyon分布式内存文件系统。“ Spark 大数据处理技术。
最后
从 Spark 核心框架的概念和原理和生态系统,和火花的应用现状做了介绍和发展在未来,针对大型数据从业人员学习和火花爱好者提供一个平台,更先进的研究。
学编程的人不要以为一辈子只能打代码,你们有很多我们一辈子比不上的优势
基本功
我的许多下属被我的手下调到管理部门,他们中的一些人开始沉默寡言,沉默寡言,没有人觉得他们会管理,但姐把这类人培养成严谨甚至冷血的干将工作忙没多少时间,之前没有多少编程基础,数学仅仅停留在大学的概率论,英语不好看英文版会疯,所以这份书单很适合时间不多,数学没基础,看不懂英文的档衡茄朋友,这本书就是《spark快速大数据分析》。200页左右,很适合初学者。
提升
有一个拦烂笑话是没有详细说明的,因为这本书不是一本关于火花的入门书,是一本应用书,很多情况需要跟踪,姐当时零基础想学数据分析,是逆推回去学的,从复习高数概率论到机器学习入门,再慢慢熟悉spark然后深入研究机器学习,都是利用下班空闲时间做的。这本书就是《spark高级数据分析》
官方版
一定要阅读官方文件。官方文件很好,比大多数都好。spark更新太快了,市面上书都是基于spark1.2以前的版本,而最新的1.4和以行察前的版本已经有了相当大的改变。尤其是dataframe,mllib,改动非常大。
我的同事写了一本书,但他推荐我去看官方文件。由于spark的更新速度非常快,所以需要半年的时间才能完成写作,而且很多内容需要更新。