2020-06-14 08:42
5882 次浏览
0-宣传片01-复杂系统02-大数据与机器学习03-人工智能的三个阶段04-高等数学—元素和极限05-复杂网络经济学应用06-机器学习与监督算法07-阿尔法狗与强化学习算法08-高等数学—两个重要的极限定理09-高等数学—导数10-贝叶斯理论11-高等数学—泰勒展开12-高等数学—偏导数13-高等数学—积分14-高等数学—正态分布15-朴素贝叶斯和最大似然估计16-线性代数—线性空间和线性变换17-数据科学和统计学(上)18-线性代数—矩阵、等价类和行列式19-Python基础课程(上)20-线性代数—特征值与特征向量21-监督学习框架22-Python基础课程(下)23-PCA、降维方法引入24-数据科学和统计学(下)25-Python操作数据库、 Python爬虫26-线性分类器27-Python进阶(上)29-熵、逻辑斯蒂回归、SVM引入30-Python进阶(下)31-决策树32-数据呈现基础33-云计算初步34-D-Park实战35-第四范式分享36-决策树到随机森林37-数据呈现进阶38-强化学习(上)39-强化学习(下)40-SVM和神经网络引入41-集成模型总结和GDB
2020-03-24 08:40
6871 次浏览
随着The Data Warehouse Toolkit(1996)第1版的出版发行,Ralph Kimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和最佳实践的权威资源。这本《数据仓库工具箱(第3版)——维度建模权威指南》汇集了到目前为止最全面的维度建模技术。本书采用新的思路和最佳实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。《数据仓库工具箱(第3版)——维度建模权威指南》涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。主要内容 ◆ 实用设计技术——有关维度和事实表的基本和高级技术◆ 14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等◆ 为12个案例研究提供了数据仓库总线矩阵示例◆ 需要避免的维度建模陷阱和错误◆ 增强的缓慢变化维度(SCD)技术类型0~类型7◆ 用于处理参差不齐的可变深度层次和多值属
2020-03-03 18:35
6388 次浏览
全书分为三大部分:第一部分,主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。第二部分,我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。第三部分,主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数据源来解决所有问题,那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先第10章以批处理开始来处理派生数据,紧接着第11章采用流式处理。第12章总结之前介绍的多种技术,并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。前言 ...........
2020-02-28 12:40
3348 次浏览
ODPS(Open Data Processing Service)是阿里巴巴自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。本书是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供更多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的网站上免费下载。本书是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。本书包括以下重要内容:ODPS概览及其基本知识;如何高效地使用ODPS SQL;MapReduce编程和进阶应用;ODPS机器学习算法;ODPS权限、资源和数据管理;深入了解ODPS体系结构和高级机制。
2020-02-15 10:24
2921 次浏览
作为基于分布式文件存储的数据库,在目前的云计算实践中,MongoDB炙手可热。《深入云计算(MongoDB管理与开发实战详解)》系统全面的介绍了MongoDB开发、管理、维护和性能优化等方方面面。详细而深入,对MongoDB的开发和管理方法进行了详细的讲解,也对MongoDB的工作机制进行了深入的探讨。注重实战,通过实际中的案例为读者讲解使用MongoDB时遇到的各种问题,并给出了解决方案。本书旨在帮助云计算初学者迅速掌握MongoDB数据库,提升读者在云计算实践中的应用和开发能力。同时本书极强的系统性和大量翔实的案例对于有一定基础的中高级用户有非常好的参考价值。第1篇 基础篇第1章 MongoDB简介第2章 MongoDB基本原理与安装第3章 文档的增加、修改及删除第2篇 应用篇第4章 查询第5章 Capped集合第6章 GridFS存储文件第7章 MapReduce统计第3篇 管理篇第8章 管理第4篇 性能篇第9章 索引第10章 性能优化第5篇 架构篇第11章 复制集第12章 sharding 分片第13章 复制集+shardin分片体第6篇 实例篇第14章 实际项目搭建Mongo
2020-01-31 15:58
3799 次浏览
大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。《大数据日知录:架构与算法》的读者对象包括对No
2020-01-09 08:56
3897 次浏览
《大数据架构详解:从数据获取到深度学习》从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界最新产品,以及学术界最新的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。《大数据架构详解:从数据获取到深度学习》内容深入浅出,技术结合实践,从实践中理解架构和技术的本质,适合大数据技术领域的从业人员如架构师、工程师、产品经理等,以及准备学习相关领域知识的学生和老师阅读。第一部分 大数据的本质 第1章 大数据是什么 2 1.1 大数据导论 2 1.1.1 大数据简史 2 1.1.2 大数据现状 3 1.1.3 大数据与BI 3 1.2 企业数据资产 4 1.3 大数据挑战 5 1.3.1 成本挑战 6 1.3.2 实时性挑战 6 1.3.3 安全挑战 6 1.4 小结 6 第2章 运营商大数据
2020-01-08 09:08
3382 次浏览
MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。《大数据存储MongoDB实战指南》从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础知识、深入理解MongoDB、监控与管理MongoDB和应用实践几个维度详细地介绍了MongoDB的特点及应用实例。《大数据存储MongoDB实战指南》适合有海量数据存储需求的人员、数据库管理开发人员、数据挖掘与分析人员以及各类基于数据库的应用开发人员。读者将从书中获得诸多实用的知识和开发技巧。第一部分基础知识 第1章大数据与云计算 1.1什么是大数据 1.2什么是云计算 1.3大数据与云计算 1.4什么是MongoDB 1.5大数据与MongoDB 1.6MongoDB特点 1.7安装MongoDB 1.8几个重要的进程介绍 1.8.1mongod进程 1.8.2mongo进程 1.8.3其他进程 1.9适合哪些业
2020-01-07 20:36
2791 次浏览
本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。前言 第一篇 数据大图和数据平台大图 第1章 数据大图 2 1.1 数据流程 2 1.1.1 数据产生 3 1.1.2 数据采集和传输 5 1.1.3 数据存储处理 6 1.1.4 数据应用 7 1.2 数据技术 8 1.2.1 数据采集传输主要技术 9 1.2.2 数据处理主要技术 10 1.2.3 数据存储主要技术 12 1.2.4 数据应用主要技术 13 1.3 数据相关从业者和角色 14 1.3.1 数据平台开发、运维工程师 14 1.3.2 数据开发、运维工程师 15 1.3.3 数据分析工程师 15 1.3.4 算法工程师 16 1.3.5
2019-12-31 14:16
3321 次浏览
《实战Hadoop:开启通向云计算的捷径》讲述了:作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop:开启通向云计算的捷径》是原著的Hadoop编程技术书籍,是云计算专家刘鹏教授继《云计算》教材取得成功后,再次组织团队精心编写的又一力作,其作者均来自拥有丰富实践经验的云计算技术研发和教学团队。该书强调动手、强调实战,以风趣幽默的语言和一系列生动的实战应用案例,系统地讲授了Hadoop的核心技术和扩展技术,包括: HDFS、MapReduce、HBase、Hive、Pig、Cassandra、Chukwa和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。《实战Hadoop:开启通向云计算的捷径》读者对象为各类云计算相关企业、高校和科研机构的研发人员,亦适合作为高校研究生和本科生教材。《实战hadoop》 第1 章 神奇的大象——hadoop 1.1 初识神象 2 1.2 hadoop 初体验 4 1.2.1 了解hadoop 的构架 4 1.2.2 查看hadoop 活动
2019-12-31 14:12
3559 次浏览
本书能满足读者全面学习最新的Hadoop技术及其相关技术(Hive、HBase等)的需求,是一本系统且极具实践指导意义的Hadoop工具书和参考书。第1版上市后广受好评,被誉为学习Hadoop技术的经典著作之一。与第1版相比,第2版技术更新颖,所有技术都针对最新版进行了更新;内容更全面,几乎每一个章节都增加了新内容,而且增加了新的章节;实战性更强,案例更丰富;细节更完美,对第1版中存在的缺陷和不足进行了修正。本书内容全面,对Hadoop整个技术体系进行了全面的讲解,不仅包括HDFS、MapReduce、YARN等核心内容,而且还包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop技术相关的重要内容。实战性强,不仅为各个知识点精心设计了大量经典的小案例,而且还包括Yahoo!等多个大公司的企业级案例,可操作系极强。全书一共19章:第1~2章首先对Hadoop进行了全方位的宏观介绍,然后介绍了Hadoop在三大主流操作系统平台上的安装与配置方法;第3~6章分别详细讲解了MapReduce计算模型、MapReduce的工作机制、MapRe
2019-12-26 12:41
3152 次浏览
本书以大数据安全为对象展开研究,对大数据安全的现状、技术、存在问题和解决策略进行了梳理,从安全视角讨论和分析大数据,对已经发生的安全事件,作为案例进行详细讲解,以起到一定的警示和借鉴作用,为读者解答了一系列关系到大数据安全现在与未来的问题。第一章 大数据安全现状 ............................................11.大数据安全事件 .........................................................42.大数据安全应对策略 ..................................................93.大数据安全应用 .......................................................134.政府大数据安全布局 ................................................175.本章小结 ........................................................
2019-12-26 12:29
3053 次浏览
大数据贵在落实! 本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafka、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。第一篇 大数据的基本概念和技术 第1章 绪论 3 1.1 时代背景 3 1.1.1 全球大数据浪潮 3 1.1.2 我国的大数据国家战略 5 1.2 大数据的概念 7 1.2.1 概念 7 1.2.2 特征 8 1.3 技术支撑体系 9 1.3.1 概览 9 1.3.2 大数据采集层 9 1.3.3 大数据存储层 10 1.3.4 大数据分析(处理与服务)层 11 1.3.5 大数据应用层 11 1.3.6 垂直视图 13 1.4 大数据人才及其能力要求 14 1.4.1 首席数据官 14 1.4
2019-12-19 20:21
3265 次浏览
汇集作者在大众点评和1号店实时平台的大数据实践讲解基于Storm的流数据处理的整体解决方案《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。第1章 绪论 1 1.1 Storm的基本组件 2 1.1.1 集群组成 2 1.1.2 核心概念 3 1.1.3 Storm的可靠性 5 1.1.4 Storm的特性 6 1.2 其他流式处理框架 6 1.2.1 Apache S4 6 1.2.2 Spark Streaming 6 1.2.3 流计算和Storm的应用 7 第2章 实时平台介绍 11 2.1 实时平台架构介绍 11 2.2 Kafka架构 13 2.2.1 Kafka的基本术语和概念 13 2.2.2 Kafka在实时平台中的应用 14 2.2.3 消息的持久化和顺序读写 15 2.2.4 sendfile系
2019-12-09 21:15
6018 次浏览
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation 算子和 Join 算子的实现与执行、Tungsten 优化技术、生产环境中的一些改造优化经验等。《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。第 1 章 Spark SQL 背景 1 1.1 大数据与 Spark 系统 1 1.2 关系模型与 SQL 语言 3 1.3 Spark SQL 发展历程 4 1.4 本章小结 5 第 2 章 Spark 基础知识介绍 6 2.1 RDD 编程模型 6 2.2 DataFrame 与
2019-12-09 11:05
2861 次浏览
目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。推荐序一 推荐序二 前 言 第1章 抉择 1 第2章 数据收集 4 2.1 互联网数据收集 4 2.1.1 网络爬虫 5 2.1.2 Apache Nutch简介 11 2.1.3 Heritrix简介 14 2.2 内部数据收集 15 2.2.1 Apache Flume简介 17 2.2.2 Facebook Scribe和Logstash 21 2.3 本章心得 21 2.4 参考资料 22 第3章 数据存储 23 3.1 持久
2019-12-09 11:01
3529 次浏览
本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。目录 推荐序 前言 引子 1 第一篇 支持高效的运营 第1章 方案设计和技术选型:分类 5 1.1 分类的基本概念 6 1.2 分类任务的处理流程 7 1.3 算法:朴素贝叶斯和K最近邻 8 1.3.1 朴素贝叶斯 8 1.3.2 K最近邻 9 1.4 分类效果评估 10 1.5 相关软件:R和Mahout 12 1.5.1 R简介 12 1.5.2 Mahout简介 13 1.5.3 Hadoop简介 14 1.6 案例实践 17 1.6.1 实验环境设置 17 1.6.2 中文分词 18 1.6.3 使
2019-12-06 10:24
3007 次浏览
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。全书共9章,分为三部分:第一部分(第1章)主要介绍了Had
2019-12-06 10:22
3400 次浏览
本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对Facebook Corona和Apache Mesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附
2019-12-06 10:20
2893 次浏览
《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。海报:前 言 第一部分 基础篇 第1章 阅读源代码前的准备/ 2 1.1 准备源代码学习环境/ 2 1.1.1 基础软件下载/ 2 1.1.2 如何准备Windows环境/ 3 1.1.3 如何准备L
2019-12-05 15:14
3132 次浏览
Hadoop源代码分析 第2版(修订版)是一本全面细致介绍和分析Hadoop源码和内部工作机理的技术书籍,通过对Hadoop内部源码详细透彻的解析,使读者能够快速高效地掌握Hadoop的内部工作机制,了解Hadoop内部源码架构,对Hadoop有更加深刻的认识。本书主要对Hadoop最核心的部分:HDFS和MapReduce进行源码解析和说明。适合所有想全面学习Hadoop开发技术的人员阅读,也适用于使用Hadoop进行开发的工程技术人员,还可作为想深入了解Hadoop运行机制、源代码的开发人员的参考书籍。第1篇 Hadoop概述与安装第1章 Hadoop的简介和安装第2篇 HDFS分布式文件系统及IO模型第2章 HDFS架构和分布式文件系统第3章 Hadoop分布式文件系统HDFS的具体实现第4章 NameNode的实现第5章 Datanode的实现第6章 Hadoop的IO第3篇 MapReduce计算框架及RPC通信模型第7章 MapReduce的输入和输出第8章 Hadoop中的Context和ID第9章 Hadoop的计算模型MapReduce第10章 JobClient的执
2019-12-05 15:09
3402 次浏览
Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。Contents?目 录 推荐序一 推荐序二 推荐序三 推荐序四 前 言 第1章
2019-12-04 13:59
3414 次浏览
《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。第一部分Spark概述1 第1章初识Spark 3 1.1 大数据和Spark 3 1.1.1 大数据的由来4 1.1.2 大数据的分析4 1.1.3 Hadoop 5 1.1.4 Spark简介6 1.2 与Spark的第一次亲密接触7 1.2.1 环境准备7 1.2.2 下载安装Spark 8 1.2.3 Spark下的WordCount 8 第二部分Spark核心概念13
2019-12-04 12:26
4417 次浏览
HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价PC 服务器上搭建起大规模的存储化集群。使用HBase可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。本书共分为10章,由浅入深的讲解HBase概念、安装、配置、部署。让读者对HBase先有一个感性认识,再从应用角度,介绍了高级用法、监控和性能调优。既兼顾了初学者也适用于想要深入学习HBase的读者。本书适合于以前没有接触过HBase,或者了解HBase并希望能够深入掌握的读者,适合HBase应用开发人员和系统管理人员学习使用。第1章 基础知识 1 1.1 Node是什么 1 1.1.1 Node与JavaScript 1 1.1.2 Runtime 和 VM 2 第1章 初识HBase 1 1.1 海量数据与NoSQL 1 1.1.1 关系型数据库的极限 1 1.1.2 CAP理论 1 1.1.3 NoSQL 2 1.2 HBase是怎么来的 3 1.3 为什么要用HBase 3 1.4 你必须懂的基本概念 4 1.4.1 部署架构
2019-11-28 10:53
3352 次浏览
本书主要内容包括:第 1章 初识Hadoop、第 2章 Hadoop基础、第3章 Hadoop开发环境配置与搭建、第4章 Hadoop分布式文件系统(HDFS)、第5章 资源管理器(Yarn)、第6章 MapReduce基础程序设计、第7章 MapReduce程序设计、第8章 分布式数据库HBase、第9章 分布式数据仓库Hive、第 10章 项目测试与发布1.1 为什么要学习Hadoop 21.1.1 信息化项目衍生过程 21.1.2 Hadoop产生过程 51.1.3 Hadoop成功案例介绍 81.2 Hadoop与云计算的关系 81.2.1 什么是云计算 81.2.2 云计算演进历史 101.2.3 云计算相关技术介绍 121.2.4 Hadoop在云项目中扮演的角色 121.3 Hadoop与大数据的关系 131.3.1 什么是大数据 131.3.2 大数据的存储结构 151.3.3 大数据的计算模式 151.3.4 Hadoop在大数据中扮演的角色 161.4 学习Hadoop需要具备的知识基础 161.5 学习Hadoop需要的实验环境 171.6 Hadoop的用途 1
2019-11-27 15:14
2924 次浏览
本书基于作者近几年来的研究开发成果及应用实践,对物联网大数据技术体系进行了系统归纳,阐述了物联网环境下感知数据的特性、数据模型、事务模型以及调度处理方法等核心概念及关键技术,并对物联网大数据存储、管理、计算与分析的基本概念和关键技术进行了剖析。本书还介绍了自行研发的面向物联网的ChinDB实时感知数据库系统以及针对云计算环境下物联网大数据管理与应用的DeCloud云平台,介绍了它们在智能交通、智能电厂、教育、安全监控等多个行业的应用。书中所有实例,均来自作者所在团队的实际应用,大部分在物联网项目中得到了实践应用。本书对物联网应用的开发以及两化融合、工业4.0环境下的大数据处理分析具有重要参考价值。第1篇 缘起与发展趋势篇第1章 物联网与产业发展 31.1 物联网产业的发展 31.1.1 传感器与智能硬件 41.1.2 物联网服务平台 51.1.3 工业4.0与CPS 51.2 物联网与大数据 71.3 物联网产业的机遇与挑战 91.3.1 物联网产业面临的挑战 91.3.2 物联网操作系统与数据库 101.3.3 物联网大数据处理与应用 11第2章 大数据处理技术的发展 122.1 大
2019-11-22 22:01
5445 次浏览
本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。本书内容涵盖操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔镜、ECharts、Tableau)等。同时,本书还提供了丰富的课程实验和综合案例,以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。本书是《大数据技术原理与应用——概念、存储、处理、分析与应用》的“姊妹篇”,可以作为高等院校计算机、信息管理等相关专业的大数据课程辅助教材,用于指导大数据编程实践;也可供相关技术人员参考。第1章大数据技术概述/11.1大数据时代/11.2大数据关键技术/21.3大数据软件/31.3.1Hadoop/41.3.2Spark/51.3.3NoSQL数据库/51.3.4数据可视化/61.4内容安排/71.5在线资源/81.5.1在
2019-11-22 10:11
2879 次浏览
《大数据智能——互联网时代的机器学习和自然语言处理技术》是一本介绍大数据智能分析的科普书籍,旨在让更多的人了解和学习互联网时代的机器学习和自然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务。《大数据智能——互联网时代的机器学习和自然语言处理技术》包括大数据智能基础和大数据智能应用两个部分,共8 章。大数据智能基础部分有三章:第1 章以深度学习为例介绍大数据智能的计算框架;第2 章以知识图谱为例介绍大数据智能的知识库;第3 章介绍大数据的计算处理系统。大数据智能应用部分有5 章:第4 章介绍智能问答,第5 章介绍主题模型,第6 章介绍个性化推荐,第7 章介绍情感分析与意见挖掘,第8 章介绍面向社会媒体内容的分析与应用。最后在《大数据智能——互联网时代的机器学习和自然语言处理技术》的后记部分为读者追踪大数据智能的最新学术材料提供了建议。《大数据智能——互联网时代的机器学习和自然语言处理技术》适合作为高等院校计算机相关专业的研究生学习参考资料,也适合电脑爱好者阅读。作者特别希望本书能够帮助所有愿意对大数据技术有所了解,以及想要将大数据技术应用于本职工作的读者。第1 章 深度学习—
2019-11-15 10:21
3858 次浏览
《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读。第1章 简介 1 1.1 海量数据的黎明 1 1.2 关系数据库系统的问题 5 1.3 非关系型数据库系统Not-Only-SQL(简称NoSQL) 7 1.3.1 维度 9 1.3.2 可扩展性 12 1.3.3 数据库的范式化和反范式化 12 1.4 结构 15 1.4.1 背景 15 1.4.2 表、行、列和单元格 16 1.4.3 自动分区 20 1.4.4 存储API 21 1.4.5 实现 22 1.4.6 小结 25 1.5 HBase:Hadoop数据库 25 1.5.
2019-11-14 14:54
3142 次浏览
《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性和高可伸缩性。具体来讲,它有如下优势:打造全栈多计算范式的高效数据流水线轻量级快速处理易于使用,支持多语言与HDFS等存储层兼容社区活跃度高……Spark已经在全球范围内广泛使用,无论是Intel、Yahoo!、Twitter、阿里巴巴、百度、腾讯等国际互联网巨头,还是一些尚处于成长期的小公司,都在使用Spark。本书作者结合自己在微软和IBM实践Spark的经历和经验,编写了这本书。站着初学者的角度,不仅系统、全面地讲解了Spark的各项功能及其使用方法,而且较深入地探讨了Spark的工作机制、运行原理以及BDAS生态系统中的其他技术,同时还有一些可供操作的案例,能让没有经验的读者迅速掌握Spark。更为重要的是,本书还对Spark的性能优化进行了探讨。前 言 第1章 Spark简介 1 1.1 Sp