拥有 大数据 标签的文章 共 19 条数据

MongoDB大数据处理权威指南(第3版) PDF下载
编程书籍

MongoDB大数据处理权威指南(第3版) PDF下载

23次浏览 0条评论

《MongoDB大数据处理权威指南(第3版)》针对MongoDB 3做了精细更新,呈现MongoDB的所有最新特性,涵盖2.2版引入的聚集框架、2.4版引入的哈希索引以及3.2版本的WiredTiger,还新纳入Node.js和Python。MongoDB是最流行的“大数据”NoSQL数据库技术,目前仍在蓬勃发展。来自10gen的David Hows以及经验丰富的Peter Membrey和Eelco Plugge等MongoDB专家联袂撰写本书,在书中分享他们的宝贵专业知识和经验,向读者呈现成长为一名MongoDB专家需要了解的所有知识。主要内容● 在所有主流服务器平台上搭建MongoDB,包括Windows、Linux、OS X和云平台(如Rackspace、Azure和Amazon EC2)● 使用GirdFS和新的聚集框架● 使用非SQL命令处理数据● 使用Node.js和Python编写应用● 优化MongoDB● 精通掌握MongoDB管理方面的知识,包括复制、复制标签和标签分片第1章 MongoDB简介 1 1.1 了解MongoDB哲学 1 1.1.1 使用正确的工具处

图灵程序设计丛书《数据分析实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据分析实战》高清文字版PDF下载

36次浏览 0条评论

本书由实战经验丰富的两位数据分析师执笔,首先介绍了商业领域里通用的数据分析框架,然后根据该框架,结合8个真实的案例,详细解说了通过数据分析解决各种商业问题的流程,让读者在解决问题的过程中学习各种数据分析方法,包括柱状图、交叉列表统计、A/B测试、多元回归分析、逻辑回归分析、主成分分析、聚类、决策树分析、机器学习等。特别是书中使用的数据都是未经清洗的原始数据,能够让读者了解真实的数据分析流程,避免纸上谈兵。第1章 数据科学家的工作  1 1.1 什么是数据科学家  2 1.2 3种类型的数据科学家  5 1.3 数据科学家的现状  8 第2章 商业数据分析流程  9 2.1 数据分析的5个流程  10 2.2 现状和预期  12 2.3 发现问题  13 2.4 数据的收集和加工  19 2.5 数据分析  24 2.6 解决对策  27 2.7 小结  29 [分析基础]篇 第3章 案例1—柱状图 为什么销售额会减少  35 3.1 现状和预期  36 3.2 发现问题  38 3.3 数据的收集和加工  39 3.4 数据分析  46 3.5 解决对策  49 3.6 小结  50

Apache Kafka源码剖析 PDF下载
编程书籍

Apache Kafka源码剖析 PDF下载

39次浏览 0条评论

《Apache Kafka源码剖析》以Kafka 0.10.0版本源码为基础,针对Kafka的架构设计到实现细节进行详细阐述。《Apache Kafka源码剖析》共5章,从Kafka的应用场景、源码环境搭建开始逐步深入,不仅介绍Kafka的核心概念,而且对Kafka生产者、消费者、服务端的源码进行深入的剖析,最后介绍Kafka常用的管理脚本实现,让读者不仅从宏观设计上了解Kafka,而且能够深入到Kafka的细节设计之中。在源码分析的过程中,还穿插了笔者工作积累的经验和对Kafka设计的理解,希望读者可以举一反三,不仅知其然,而且知其所以然。《Apache Kafka源码剖析》旨在为读者阅读Kafka源码提供帮助和指导,让读者更加深入地了解Kafka的运行原理、设计理念,让读者在设计分布式系统时可以参考Kafka的优秀设计。《Apache Kafka源码剖析》的内容对于读者全面提升自己的技术能力有很大帮助。第1章 快速入门 1.1 Kafka简介 1.2 以Kafka为中心的解决方案 1.3 Kafka核心概念 1.4 搭建Kafka源码环境 本章小结 第2章 生产者 2.1  Kaf

图灵程序设计丛书《数据科学实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据科学实战》高清文字版PDF下载

37次浏览 0条评论

• 统计推断、探索性数据分析(EDA)及数据科学工作流程• 算法• 垃圾邮件过滤、朴素贝叶斯和数据清理• 逻辑回归• 金融建模• 推荐引擎和因果关系• 数据可视化• 社交网络与数据新闻• 数据工程、MapReduce、Pregel和Hadoop作者介绍   XII 关于封面图  XIII 前言  XIV 第1章 简介:什么是数据科学  1 1.1 大数据和数据科学的喧嚣  1 1.2 冲出迷雾  2 1.3 为什么是现在  3 1.4 数据科学的现状和历史  5 1.5 数据科学的知识结构  8 1.6 思维实验:元定义  10 1.7 什么是数据科学家  11 1.7.1 学术界对数据科学家的定义  12 1.7.2 工业界对数据科学家的定义  12 第2章 统计推断、探索性数据分析和数据科学工作流程  14 2.1 大数据时代的统计学思考  14 2.1.1 统计推断  15 2.1.2 总体和样本  16 2.1.3 大数据的总体和样本  17 2.1.4 大数据意味着大胆的假设  19 2.1.5 建模  21 2.2 探索性数据分析  26 2.2.1 探索性数据分析的哲学 

企业大数据处理 Spark、Druid、Flume与Kafka应用实践 PDF下载
编程书籍

企业大数据处理 Spark、Druid、Flume与Kafka应用实践 PDF下载

92次浏览 0条评论

《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》是一本立足于企业真实的商用项目来讲解如何高效从事大数据实践的著作。技术层面,从全栈的角度系统梳理和详尽讲解了大数据的核心技术,包括Spark、Druid、Flume、Kafka等,让我们在纷繁复杂的技术中少走弯路;经验层面,为企业的大数据技术选型和大数据平台建设提供了成熟的解决方案;实操层面,提供了大量的案例,其中包括2个综合性的案例。全书一共分为三个部分:第一部分(第1章):主要介绍了企业大数据系统的前期准备工作,包括构建企业大数据处理系统需要的软件环境和集群环境是如何搭建的。第二部分(第2~7章):依次重点讲解了Spark的基本原理、使用方法和优化方式;Druid的基本原理、集群的搭建过程,以及相关的各种操作;日志收集系统Flume的基本架构、关键组件,以及分层日志收集架构的设计与实践;分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章):详细讲解了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监

图灵程序设计丛书《Flink基础教程》高清PDF下载
编程书籍

图灵程序设计丛书《Flink基础教程》高清PDF下载

73次浏览 0条评论

作为新一代的开源流处理器,Flink是众多大数据处理框架中一颗冉冉升起的新星。它以同一种技术支持流处理和批处理,并能同时满足高吞吐、低延迟和容错的需求。本书由Flink项目核心成员执笔,系统阐释Flink的适用场景、设计理念、功能、用途和性能优势。- Flink的适用场景- 流处理架构相较于批处理架构的优势- Flink中的时间概念- Flink的检查点机制- Flink的性能优势前言 ix 第1章 为何选择Flink 1 1.1 流处理欠佳的后果 2 1.1.1 零售业和市场营销 2 1.1.2 物联网 3 1.1.3 电信业 5 1.1.4 银行和金融业 5 1.2 连续事件处理的目标 6 1.3 流处理技术的演变 6 1.4 初探Flink 9 1.5 生产环境中的Flink 12 1.5.1 布衣格电信 13 1.5.2 其他案例 14 1.6 Flink的适用场景 15 第2章 流处理架构 17 2.1 传统架构与流处理架构 17 2.2 消息传输层和流处理层 18 2.3 消息传输层的理想功能 19 2.3.1 兼具高性能和持久性 20 2.3.2 将生产者和消费者解耦 2

大数据架构师指南 PDF下载
编程书籍

大数据架构师指南 PDF下载

104次浏览 0条评论

如果你是一名IT工程师,CTO希望你在一周内提交一份公司未来IT系统基础架构的初步建议;如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向;……在这个信息严重过剩的时代,一周内从浩渺的技术细节的海洋中抓住关键的技术脉络,并进一步提出有一定理论依据的技术思考,这几乎是不可能完成的任务。您是否想过阅读一本关于大数据的图书帮助解决如上问题?浩如烟海的大数据领域图书可以大致归纳为三类:第一类是描述大数据的应用前景与社会意义;第二类是研讨大数据作为一个大型IT系统的系统架构与技术架构;第三类是研讨大数据领域的具体技术,例如HADOOP相关的编程等。对于需要快速掌握大数据系统技术脉络,或者是需要对未来IT系统做系统思考的技术工作者来说,最需要的是第二类图书所提供的系统化知识。但目前业界大数据相关的书籍与资料,大多是第一类与第三类,第二类非常稀少,以至于某些希望开展大数据课程教学的高校难以找到合适的教材与参考数据。通过阅读本书,您将可以迅速建立大数据技术架构相关的知识与脉络,而不是迷失在浩如烟海的知识细节中。本书的目的就是为了帮助读者在最短的时间内,系统地把握大数据相关

《甲骨论大数据2017》免费视频教程(管理+开发) Linux,Oracle,MySQL,J2EE(JavaEE),Hadoop,Spark
视频教程

《甲骨论大数据2017》免费视频教程(管理+开发) Linux,Oracle,MySQL,J2EE(JavaEE),Hadoop,Spark

77次浏览 0条评论

视频从最基础的Linux安装开始讲起,讲到了系统级别的基本操作,Oracle数据库的体系结构,MySQL的逻辑单元,java等IO和概念设计.最后介绍了hadoop和Spark的相关内容.详细目录:│ 01.Linux操作系统的安装.mp4│ 02.Xshell软件远程连接服务器.mp4│ 03.Linux目录的基本操作.mp4│ 04.Linux目录的基本管理.mp4│ 05.Linux用户和组管理.mp4│ 06.Linux软件包的安装(rpm+yum).mp4│ 07.Linux网络管理.mp4│ 08.Linux权限管理(ugo+suid+sgid+sticky).mp4│ 09.AIX系统LVM理论讲解.mp4│ 10.AIX系统LVM创建.mp4│ 11.AIX HACMP安装.mp4│ 12.HACMP配置.mp4│ 13.Oracle 11G在Linux下单机安装.mp4│ 14.Linux6.5安装Oracle-11g-RAC(1).mp4│ 15.Linux6.5安装Oracle-11g-RAC(2).mp4│ 16.Linux6.5安装Oracle-11g-RAC

图灵程序设计丛书《Spark机器学习》高清文字版PDF下载
编程书籍

图灵程序设计丛书《Spark机器学习》高清文字版PDF下载

70次浏览 0条评论

本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。第1章 Spark的环境搭建与运行  1 1.1 Spark的本地安装与配置  2 1.2 Spark集群  3 1.3 Spark编程模型  4 1.3.1 SparkContext类与SparkConf 类  4 1.3.2 Spark shell  5 1.3.3 弹性分布式数据集  6 1.3.4 广播变量和累加器  10 1.4 Spark Scala编程入门  11 1.5 Spark Java编程入门  14 1.6 Spark Python编程入门  17 1.7 在Amazon EC2上运行Spark  18 1.8 小结  23 第2章 设计机器学习系统  24 2.1 MovieStream介绍  24 2.2 机器学习系统商业用例  25 2.2.1 个性化  26 2.2.2 目标营销和客户细分  26 2.2.3 预测建模与分析  26 2.3

图灵程序设计丛书《Hadoop数据分析》高清文字版PDF下载
编程书籍

图灵程序设计丛书《Hadoop数据分析》高清文字版PDF下载

74次浏览 0条评论

通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,第一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。前言  ix 第一部分 分布式计算入门 第1章 数据产品时代  2 1.1 什么是数据产品  2 1.2 使用Hadoop构建大规模数据产品  4 1.2.1 利用大型数据集  4 1.2.2 数据产品中的Hadoop  5 1.3 数据科学流水线和Hadoop生态系统  6 1.4 小结  8 第2章 大数据操作系统  9 2.1 基本概念  10 2.2 Hadoop架构  11 2.2.1 Hadoop集群  12 2.2.2 HDFS  14 2.2.3 YARN  15 2.3 使用分布式文件系统  16 2.3.1 基本的文件系统操作  16 2.3.2 H

图灵程序设计丛书《Hadoop应用架构》 高清文字版PDF下载
编程书籍

图灵程序设计丛书《Hadoop应用架构》 高清文字版PDF下载

78次浏览 0条评论

-使用Hadoop进行数据存储和建模的着眼点和思路-将数据输入、输出系统的最佳方案-MapReduce、Spark和Hive等数据处理框架介绍-数据去重、窗口分析等常见Hadoop处理模式应用-在Hadoop上采用Giraph、GraphX等图形处理工具-综合使用工作流以及Apache Oozie等调度工具-以Apache Oozie、Apache Spark Streaming和Apache Flume进行近实时流处理-点击流分析、欺诈检验和数据仓库的架构案例本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中的软件,讲解较为单一的使用方法,而本书偏重实践,在架构的高度详细阐释诸多工具如何相互配合,搭建出打磨之后的完整应用。书中提供了诸多案例,易于理解,配有详细的代码解析,知识点一目了然。为加强训练,本书后半部分提供了详细的案例,涵盖最为常见的Hadoop应用架构。无论是设计Hadoop应用,还是将Hadoop同现有数据基础架构集成,本书都可以提供详实的参考。版权声明 O'Reilly Media, Inc. 介绍 译者序 序

图灵程序设计丛书《Spark高级数据分析(第2版)》高清文字版PDF下载
编程书籍

图灵程序设计丛书《Spark高级数据分析(第2版)》高清文字版PDF下载

245次浏览 0条评论

作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。第2版根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。本书涵盖模式如下:● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据推荐序  ix译者序  xi序  xiii前言  xv第1章 大数据分析  11.1 数据科学面临的挑战  21.2 认识Apache Spar

《重构大数据统计》杨旭著 PDF下载
编程书籍

《重构大数据统计》杨旭著 PDF下载

345次浏览 0条评论

基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显著效果。大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。《重构大数据统计》提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。《重构大数据统计》适合对大数据分析感兴趣的读者阅读:前面章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识。建议读者根据自己的兴趣和工作需要,选择相应的内容参考。第1 章 基本概念 ............................................................. 11.1 数据类型 ............

《大规模分布式存储系统:原理解析与架构实战》PDF下载
编程书籍

《大规模分布式存储系统:原理解析与架构实战》PDF下载

327次浏览 0条评论

《大规模分布式存储系统:原理解析与架构实战》是分布式系统领域的经典著作,由阿里巴巴高级技术专家“阿里日照”(OceanBase核心开发人员)撰写,阳振坤、章文嵩、杨卫华、汪源、余锋(褚霸)、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面,不仅讲解了大规模分布式存储系统的核心技术和基本原理,而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析;实战方面,首先通过对阿里巴巴的分布式数据库OceanBase的实现细节的深入剖析完整地展示了大规模分布式存储系统的架构与设计过程,然后讲解了大规模分布式存储技术在云计算和大数据领域的实践与应用。《大规模分布式存储系统:原理解析与架构实战》内容分为四个部分:基础篇——分布式存储系统的基础知识,包含单机存储系统的知识,如数据模型、事务与并发控制、故障恢复、存储引擎、压缩/解压缩等;分布式系统的数据分布、复制、一致性、容错、可扩展性等。范型篇——介绍谷歌、亚马逊、微软、阿里巴巴等著名互联网公司的大规模分布式存储系统架构,涉及分布式文件系统、分布式键值系统、分布式表格系统以及分布式数据库技术等。实践篇—

《Storm实战 构建大数据实时计算》PDF下载
编程书籍

《Storm实战 构建大数据实时计算》PDF下载

277次浏览 0条评论

随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。《Storm实战:构建大数据实时计算 》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。实战性很强,各章节都提供了一些小案例,同时对于本地,以及集群环境的部署有详细介绍,易于理解,操作性强。《Storm实战:构建大数据实时计算 》一共分为10章:第1章全面介绍了Storm的特性、能解决什么问题,以及和其他流计算系统的对比;第2章通过实际运行一个简单的例子,以及介绍本地环境和集群环境的搭建,让读者对Storm有了直观的认识;第3章深入讲解了Storm的基本概念,同时实现一个Topology运行;第4章和第5章阐述了Storm的并发度、可靠处理的特性;第6章~第8章详细而系统地讲解了几个高级特性:事务、DRPC和Trident;第9章以实例的方式讲解了Storm在实际业务场景中的应用;第10章总结了几个

《大数据之路:阿里巴巴大数据实践》PDF下载
编程书籍

《大数据之路:阿里巴巴大数据实践》PDF下载

467次浏览 0条评论

在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。《大数据之路:阿里巴巴大数据实践》由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信《大数据之路:阿里巴巴大数据实践》中的实践和思考对同行会有很大的启发和借鉴意义。第1章 总述1第1篇 数据技术篇第2章 日志采集 82.1 浏览器的页面日志采集 82.1.1 页面浏览日志采集流程 92.1.2 页面交互日志采集 142.1.3 页面日志的

大规模分布式存储系统:原理解析与架构实战
编程书籍

大规模分布式存储系统:原理解析与架构实战

457次浏览 0条评论

《大规模分布式存储系统:原理解析与架构实战》是分布式系统领域的经典著作,由阿里巴巴高级技术专家“阿里日照”(OceanBase核心开发人员)撰写,阳振坤、章文嵩、杨卫华、汪源、余锋(褚霸)、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面,不仅讲解了大规模分布式存储系统的核心技术和基本原理,而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析;实战方面,首先通过对阿里巴巴的分布式数据库OceanBase的实现细节的深入剖析完整地展示了大规模分布式存储系统的架构与设计过程,然后讲解了大规模分布式存储技术在云计算和大数据领域的实践与应用。《大规模分布式存储系统:原理解析与架构实战》内容分为四个部分:基础篇——分布式存储系统的基础知识,包含单机存储系统的知识,如数据模型、事务与并发控制、故障恢复、存储引擎、压缩/解压缩等;分布式系统的数据分布、复制、一致性、容错、可扩展性等。范型篇——介绍谷歌、亚马逊、微软、阿里巴巴等著名互联网公司的大规模分布式存储系统架构,涉及分布式文件系统、分布式键值系统、分布式表格系统以及分布式数据库技术等。实践篇—

《分布式服务框架原理与实践》李林锋著 PDF下载
编程书籍

《分布式服务框架原理与实践》李林锋著 PDF下载

541次浏览 0条评论

《分布式服务框架:原理与实践》作者具有丰富的分布式服务框架、平台中间件的架构设计和实践经验,主导设计的华为分布式服务框架已经在全球数十个国家成功商用。《分布式服务框架:原理与实践》依托工作实践,从分布式服务框架的架构设计原理到实践经验总结,涵盖了服务化架构演进、订阅发布、路由策略、集群容错和服务治理等多个专题,全方位剖析服务框架的设计原则和原理,结合大量实践案例与读者分享作者对分布式服务框架设计和运维的体会。同时,对基于Docker部署微服务以及基于微服务架构开发、部署和运维业务系统进行了详细介绍。目录第1章 应用架构演进 11.1 传统垂直应用架构 21.1.1 垂直应用架构介绍 21.1.2 垂直应用架构面临的挑战 41.2 RPC架构 61.2.1 RPC框架原理 61.2.2 最简单的RPC框架实现 81.2.3 业界主流RPC框架 141.2.4 RPC框架面临的挑战 171.3 SOA服务化架构 181.3.1 面向服务设计的原则 181.3.2 服务治理 191.4 微服务架构 211.4.1 什么是微服务 211.4.2 微服务架构对比SOA 221.5 总结 23第2

图灵程序设计丛书 《Spark快速大数据分析》PDF下载
编程书籍

图灵程序设计丛书 《Spark快速大数据分析》PDF下载

687次浏览 0条评论

Spark开发者出品!  《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。  本书介绍了开源集群计算系统Apache Spark,它可以加速数据分析的实现和运行。利用Spark,你可以用Python、Java以及Scala的简易API来快速操控大规模数据集。  本书由Spark开发者编写,可以让数据科学家和工程师即刻上手。你能学到如何使用简短的代码实现复杂的并行作业,还能了解从简单的批处理作业到流处理以及机器学习等应用。目录推荐序 xi译者序 xiv序 xvi前言 xvii第1章 Spark数据分析导论 11.1 Spark是什么 11.2 一个大一统的软件栈 21.2.1 Spark Core 21.2.2 Spark SQL 31.2.3 Spark Streaming 31.2.4 MLlib 31.2.5 GraphX 31.2.6 集群管理器 41.3 Spark的用户和用途 41.3