拥有 大数据 标签的文章 共 44 条数据

Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理 蔡斌著 PDF下载
编程书籍

Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理 蔡斌著 PDF下载

41次浏览 0条评论

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和MapReduce的架构设计与实现原理进行了极为详细的分析。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》由腾讯数据平台的资深Hadoop专家、X-RIME的作者亲自执笔,对Common和HDFS的源代码进行了分析,旨在为Hadoop的优化、定制和扩展提供原理性的指导。除此之外,《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》还从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法,以及Java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析,对提高读者的分布式技术能力和Java编程能力都非常有帮助。《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。全书共9章,分为三部分:第一部分(第1章)主要介绍了Had

Hadoop技术内幕:深入解析YARN架构设计与实现原理 董西成著 PDF下载
编程书籍

Hadoop技术内幕:深入解析YARN架构设计与实现原理 董西成著 PDF下载

37次浏览 0条评论

本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对Facebook Corona和Apache Mesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附

Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 董西成著 PDF下载
编程书籍

Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 董西成著 PDF下载

31次浏览 0条评论

《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者亲自执笔,首先介绍了MapReduce的设计理念和编程模型,然后从源代码的角度深入分析了RPC框架、客户端、JobTracker、TaskTracker和Task等MapReduce运行时环境的架构设计与实现原理,最后从实际应用的角度深入讲解了Hadoop的性能优化、安全机制、多用户作业调度器和下一代MapReduce框架等高级主题和内容。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》适合Hadoop的二次开发人员、应用开发工程师、运维工程师阅读。海报:前 言 第一部分 基础篇 第1章 阅读源代码前的准备/ 2 1.1 准备源代码学习环境/ 2 1.1.1 基础软件下载/ 2 1.1.2 如何准备Windows环境/ 3 1.1.3 如何准备L

Hadoop源代码分析-深入云计算:Hadoop源代码分析 张鑫著 PDF下载
编程书籍

Hadoop源代码分析-深入云计算:Hadoop源代码分析 张鑫著 PDF下载

40次浏览 0条评论

Hadoop源代码分析 第2版(修订版)是一本全面细致介绍和分析Hadoop源码和内部工作机理的技术书籍,通过对Hadoop内部源码详细透彻的解析,使读者能够快速高效地掌握Hadoop的内部工作机制,了解Hadoop内部源码架构,对Hadoop有更加深刻的认识。本书主要对Hadoop最核心的部分:HDFS和MapReduce进行源码解析和说明。适合所有想全面学习Hadoop开发技术的人员阅读,也适用于使用Hadoop进行开发的工程技术人员,还可作为想深入了解Hadoop运行机制、源代码的开发人员的参考书籍。第1篇 Hadoop概述与安装第1章 Hadoop的简介和安装第2篇 HDFS分布式文件系统及IO模型第2章 HDFS架构和分布式文件系统第3章 Hadoop分布式文件系统HDFS的具体实现第4章 NameNode的实现第5章 Datanode的实现第6章 Hadoop的IO第3篇 MapReduce计算框架及RPC通信模型第7章 MapReduce的输入和输出第8章 Hadoop中的Context和ID第9章 Hadoop的计算模型MapReduce第10章 JobClient的执

Apache Kylin权威指南 Apache Kylin核心团队 著著 PDF下载
编程书籍

Apache Kylin权威指南 Apache Kylin核心团队 著著 PDF下载

28次浏览 0条评论

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。Contents?目  录 推荐序一 推荐序二 推荐序三 推荐序四 前 言 第1章 

Apache Spark源码剖析 许鹏著 PDF下载
编程书籍

Apache Spark源码剖析 许鹏著 PDF下载

46次浏览 0条评论

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。第一部分Spark概述1 第1章初识Spark 3 1.1 大数据和Spark 3 1.1.1 大数据的由来4 1.1.2 大数据的分析4 1.1.3 Hadoop 5 1.1.4 Spark简介6 1.2 与Spark的第一次亲密接触7 1.2.1 环境准备7 1.2.2 下载安装Spark 8 1.2.3 Spark下的WordCount 8 第二部分Spark核心概念13

HBase不睡觉书 杨曦著 PDF下载
编程书籍

HBase不睡觉书 杨曦著 PDF下载

30次浏览 0条评论

HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价PC 服务器上搭建起大规模的存储化集群。使用HBase可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。本书共分为10章,由浅入深的讲解HBase概念、安装、配置、部署。让读者对HBase先有一个感性认识,再从应用角度,介绍了高级用法、监控和性能调优。既兼顾了初学者也适用于想要深入学习HBase的读者。本书适合于以前没有接触过HBase,或者了解HBase并希望能够深入掌握的读者,适合HBase应用开发人员和系统管理人员学习使用。第1章 基础知识 1 1.1 Node是什么 1 1.1.1 Node与JavaScript 1 1.1.2 Runtime 和 VM 2 第1章 初识HBase 1 1.1 海量数据与NoSQL 1 1.1.1 关系型数据库的极限 1 1.1.2 CAP理论 1 1.1.3 NoSQL 2 1.2 HBase是怎么来的 3 1.3 为什么要用HBase 3 1.4 你必须懂的基本概念 4 1.4.1 部署架构

Hadoop集群程序设计与开发 王宏志著 中文版PDF下载
编程书籍

Hadoop集群程序设计与开发 王宏志著 中文版PDF下载

54次浏览 0条评论

本书主要内容包括:第 1章 初识Hadoop、第 2章 Hadoop基础、第3章 Hadoop开发环境配置与搭建、第4章 Hadoop分布式文件系统(HDFS)、第5章 资源管理器(Yarn)、第6章 MapReduce基础程序设计、第7章 MapReduce程序设计、第8章 分布式数据库HBase、第9章 分布式数据仓库Hive、第 10章 项目测试与发布1.1 为什么要学习Hadoop 21.1.1 信息化项目衍生过程 21.1.2 Hadoop产生过程 51.1.3 Hadoop成功案例介绍 81.2 Hadoop与云计算的关系 81.2.1 什么是云计算 81.2.2 云计算演进历史 101.2.3 云计算相关技术介绍 121.2.4 Hadoop在云项目中扮演的角色 121.3 Hadoop与大数据的关系 131.3.1 什么是大数据 131.3.2 大数据的存储结构 151.3.3 大数据的计算模式 151.3.4 Hadoop在大数据中扮演的角色 161.4 学习Hadoop需要具备的知识基础 161.5 学习Hadoop需要的实验环境 171.6 Hadoop的用途 1

物联网大数据处理技术与实践 王桂玲著 高清文字版PDF下载
编程书籍

物联网大数据处理技术与实践 王桂玲著 高清文字版PDF下载

62次浏览 0条评论

本书基于作者近几年来的研究开发成果及应用实践,对物联网大数据技术体系进行了系统归纳,阐述了物联网环境下感知数据的特性、数据模型、事务模型以及调度处理方法等核心概念及关键技术,并对物联网大数据存储、管理、计算与分析的基本概念和关键技术进行了剖析。本书还介绍了自行研发的面向物联网的ChinDB实时感知数据库系统以及针对云计算环境下物联网大数据管理与应用的DeCloud云平台,介绍了它们在智能交通、智能电厂、教育、安全监控等多个行业的应用。书中所有实例,均来自作者所在团队的实际应用,大部分在物联网项目中得到了实践应用。本书对物联网应用的开发以及两化融合、工业4.0环境下的大数据处理分析具有重要参考价值。第1篇 缘起与发展趋势篇第1章 物联网与产业发展 31.1 物联网产业的发展 31.1.1 传感器与智能硬件 41.1.2 物联网服务平台 51.1.3 工业4.0与CPS 51.2 物联网与大数据 71.3 物联网产业的机遇与挑战 91.3.1 物联网产业面临的挑战 91.3.2 物联网操作系统与数据库 101.3.3 物联网大数据处理与应用 11第2章 大数据处理技术的发展 122.1 大

大数据基础编程、实验和案例教程 林子雨著 PDF下载
编程书籍

大数据基础编程、实验和案例教程 林子雨著 PDF下载

68次浏览 0条评论

本书以大数据分析全流程为主线,介绍了数据采集、数据存储与管理、数据处理与分析、数据可视化等环节典型软件的安装、使用和基础编程方法。本书内容涵盖操作系统(Linux和Windows)、开发工具(Eclipse)以及大数据相关技术、软件(Sqoop、Kafka、Flume、Hadoop、HDFS、MapReduce、HBase、Hive、Spark、MySQL、MongoDB、Redis、R、Easel.ly、D3、魔镜、ECharts、Tableau)等。同时,本书还提供了丰富的课程实验和综合案例,以及大量免费的在线教学资源,可以较好地满足高等院校大数据教学实际需求。本书是《大数据技术原理与应用——概念、存储、处理、分析与应用》的“姊妹篇”,可以作为高等院校计算机、信息管理等相关专业的大数据课程辅助教材,用于指导大数据编程实践;也可供相关技术人员参考。第1章大数据技术概述/11.1大数据时代/11.2大数据关键技术/21.3大数据软件/31.3.1Hadoop/41.3.2Spark/51.3.3NoSQL数据库/51.3.4数据可视化/61.4内容安排/71.5在线资源/81.5.1在

大数据智能:互联网时代的机器学习和自然语言处理技术 刘知远著 PDF下载
编程书籍

大数据智能:互联网时代的机器学习和自然语言处理技术 刘知远著 PDF下载

67次浏览 0条评论

《大数据智能——互联网时代的机器学习和自然语言处理技术》是一本介绍大数据智能分析的科普书籍,旨在让更多的人了解和学习互联网时代的机器学习和自然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务。《大数据智能——互联网时代的机器学习和自然语言处理技术》包括大数据智能基础和大数据智能应用两个部分,共8 章。大数据智能基础部分有三章:第1 章以深度学习为例介绍大数据智能的计算框架;第2 章以知识图谱为例介绍大数据智能的知识库;第3 章介绍大数据的计算处理系统。大数据智能应用部分有5 章:第4 章介绍智能问答,第5 章介绍主题模型,第6 章介绍个性化推荐,第7 章介绍情感分析与意见挖掘,第8 章介绍面向社会媒体内容的分析与应用。最后在《大数据智能——互联网时代的机器学习和自然语言处理技术》的后记部分为读者追踪大数据智能的最新学术材料提供了建议。《大数据智能——互联网时代的机器学习和自然语言处理技术》适合作为高等院校计算机相关专业的研究生学习参考资料,也适合电脑爱好者阅读。作者特别希望本书能够帮助所有愿意对大数据技术有所了解,以及想要将大数据技术应用于本职工作的读者。第1 章 深度学习—

HBase权威指南 中文版 代志远等译 PDF下载
编程书籍

HBase权威指南 中文版 代志远等译 PDF下载

80次浏览 0条评论

《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读。第1章 简介 1 1.1 海量数据的黎明 1 1.2 关系数据库系统的问题 5 1.3 非关系型数据库系统Not-Only-SQL(简称NoSQL) 7 1.3.1 维度 9 1.3.2 可扩展性 12 1.3.3 数据库的范式化和反范式化 12 1.4 结构 15 1.4.1 背景 15 1.4.2 表、行、列和单元格 16 1.4.3 自动分区 20 1.4.4 存储API 21 1.4.5 实现 22 1.4.6 小结 25 1.5 HBase:Hadoop数据库 25 1.5.

Spark大数据处理:技术、应用与性能优化 高彦杰著 高清文字版PDF下载
编程书籍

Spark大数据处理:技术、应用与性能优化 高彦杰著 高清文字版PDF下载

66次浏览 0条评论

《Spark大数据处理:技术、应用与性能优化》根据最新技术版本,系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化,以及BDAS生态系统的相关技术。作为一个基于内存计算的大数据并行计算框架,Spark不仅很好地解决了数据的实时处理问题,而且保证了高容错性和高可伸缩性。具体来讲,它有如下优势:打造全栈多计算范式的高效数据流水线轻量级快速处理易于使用,支持多语言与HDFS等存储层兼容社区活跃度高……Spark已经在全球范围内广泛使用,无论是Intel、Yahoo!、Twitter、阿里巴巴、百度、腾讯等国际互联网巨头,还是一些尚处于成长期的小公司,都在使用Spark。本书作者结合自己在微软和IBM实践Spark的经历和经验,编写了这本书。站着初学者的角度,不仅系统、全面地讲解了Spark的各项功能及其使用方法,而且较深入地探讨了Spark的工作机制、运行原理以及BDAS生态系统中的其他技术,同时还有一些可供操作的案例,能让没有经验的读者迅速掌握Spark。更为重要的是,本书还对Spark的性能优化进行了探讨。前 言 第1章 Spark简介 1 1.1 Sp

Hadoop权威指南(第3版)修订版 PDF下载
编程书籍

Hadoop权威指南(第3版)修订版 PDF下载

66次浏览 0条评论

准备好释放数据的强大潜能了吗?借助于这本《Hadoop权威指南》,你将学习如何使用ApacheHadoop构建和维护稳定性高、伸缩性强的分布式系统。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。《Hadoop权威指南(第3版 修订版)》通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的最新动态,包括新增的MapReduceAPI,以及MapReduce2及其灵活性更强的执行模型(YARN)。" 目录 第1章 初识Hadoop 1 1.1 数据!数据! 1 1.2 数据的存储与分析 3 1.3 相较于其他系统的优势 4 1.3.1 关系型数据库管理系统 5 1.3.2 网格计算 7 1.3.3 志愿计算 9 1.4 Hadoop发展简史 10 1.5 Apache Hadoop和Hadoop生态系统 14 1.6 Hadoop的发行版本 15 1.6.1 本书包含的内容 16 1.6.2 兼容性 17 第2章 关于MapReduce 19 2.

自己动手做大数据系统 张魁等著 高清文字版PDF下载
编程书籍

自己动手做大数据系统 张魁等著 高清文字版PDF下载

365次浏览 0条评论

如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有一定的基础,常常也是打两天鱼、晒三天网,进展不是很理想。如果你有上述疑惑或遇到相似问题,《自己动手做大数据系统》正好比较适合你。《自己动手做大数据系统》从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。《自己动手做大数据系统》的一大特色是提供了实际操作环境,用户可以在线登录云平台来动手操作书中的数据和代码,登录网址请参考http://www.feiguyun.com/support。第1章 为什么要自己动手做大数据系统 1 1.1 大数据时

图解Spark:核心技术与案例实战 景瞻著 PDF下载
编程书籍

图解Spark:核心技术与案例实战 景瞻著 PDF下载

379次浏览 0条评论

《图解Spark:核心技术与案例实战》以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。《图解Spark:核心技术与案例实战》从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外《图解Spark:核心技术与案例实战》还应用了大量的图表进行说明,让读者能够更加直观地理解Spark 相关原理。通过《图解Spark:核心技术与案例实战》,读者将能够很快地熟悉和掌握Spark 大数据分析计算的利器,在生产中解决实际问题。第一篇 基础篇 第1章

Hadoop大数据挖掘从入门到进阶实战 邓杰著 PDF下载
编程书籍

Hadoop大数据挖掘从入门到进阶实战 邓杰著 PDF下载

118次浏览 0条评论

本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。前言第1章 集群及开发环境搭建1.1 环境准备1.2 安装Hadoop1.3 Hadoop版Hello World1.4 开发环境1.5 小结第2章 实战:快速构建一个Hadoop项目并线上运行2.1 构建一个简单的项目工程2.2 操作分布式文件系

基于Hadoop与Spark的大数据开发实战 PDF下载
编程书籍

基于Hadoop与Spark的大数据开发实战 PDF下载

110次浏览 0条评论

大数据技术让我们以一种的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,*终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用,运用大量案例说明和实践,提炼含金量十足的开发经验。另外,本书配以多元的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等学习内容,为读者带来全方位的学习体验。序言前言关于引用作品的版权声明第 1章Hadoop初体验 1任务1初识大数据 21.1.1 大数据基本概念 21.1.2 大数据带来的挑战 3任务2初识Hadoop 31.2.1 Hadoop概述 41.2.2 Hadoop生态圈 61.2.3 Hadoop应用案例 8任务3安装Hadoop平台 91.3.1 安装

零基础学大数据算法 PDF下载
编程书籍

零基础学大数据算法 PDF下载

109次浏览 0条评论

《零基础学大数据算法》是通俗易懂的大数据算法教程。通篇采用师生对话的形式,旨在用通俗的语言、轻松的气氛,帮助读者理解大数据计算领域中的基础算法和思想。《零基础学大数据算法》由背景篇、理论篇、应用篇和实践篇四部分组成。背景篇介绍大数据、算法、大数据算法等基本概念和背景;理论篇介绍解决大数据问题的亚线性算法、磁盘算法、并行算法、众包算法的基本思想和理论知识;应用篇介绍与大数据问题息息相关的数据挖掘和推荐系统的相关知识;实践篇从实际应用出发,引导读者动手操作,帮助读者通过实际程序和实验验证磁盘算法、并行算法和众包算法。在讲解每一个大数据问题之前,《零基础学大数据算法》都会介绍大量的经典算法和基础数据结构知识,不仅可以帮助学习过数据结构与算法、算法设计与分析等课程的同学复习,同时能够让入门的“小菜鸟”们,不会因为没有学习过经典算法而对《零基础学大数据算法》望而却步,轻松地掌握大数据算法!第1 篇 背景篇 第1 章何谓大数据 ..... 4 1.1身边的大数据 4 1.2大数据的特点和应用 ............ 6 第2 章何谓算法 .............................

Cloudera Hadoop大数据平台实战指南 PDF 下载
编程书籍

Cloudera Hadoop大数据平台实战指南 PDF 下载

167次浏览 0条评论

对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰,从Hadoop 生态系统的明星 Cloudera 入手,逐步引出各类大数据基础和核心应用框架。 本书分为18章,系统介绍Hadoop 生态系统大数据相关的知识,包括大数据概述、Cloudera Hadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN 、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容,*后给出两个综合实操案例,以巩固前面所学的知识点。 本书既适合Hadoop初学者、大数据技术工程师和大数据技术爱好者自学使用,亦可作为高等院校和培训机构大数据相关课程的培训用书。第1章  大数据概述    11.1  大数据时代的数据特点    11.2  大数据时代的发展趋势——数据将成为资产    21.3 

尚学堂肖斌老师 Hadoop视频教程 100集完整版Hadoop视频教程下载
视频教程

尚学堂肖斌老师 Hadoop视频教程 100集完整版Hadoop视频教程下载

79次浏览 0条评论

01_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0102_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0203_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0304_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0405_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0506_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0607_尚学堂_肖斌_hadoop_hdfs1分布式文件系统0708_尚学堂_肖斌_hadoop_hdfs1分布式文件系统08_io09_尚学堂_肖斌_hadoop_hdfs1分布式文件系统09_io10_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1011_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1112_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1213_尚学堂_肖斌_hadoop_hdfs1分布式文件系统1314_尚学堂_肖斌_mr分布式计算框架_理论115_尚学堂_肖斌_mr分布式计算框架_理论216_尚学堂_肖斌_mr分布式计算框架_理论317_尚学堂_肖斌_mr分布式计算框架_理论

Hadoop权威指南:大数据的存储与分析(第4版)(修订版)(升级版) PDF下载
编程书籍

Hadoop权威指南:大数据的存储与分析(第4版)(修订版)(升级版) PDF下载

162次浏览 0条评论

本书结合理论和实践,由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。全书5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce 的数据处理API)。本书是一本专业、全面的Hadoop 参考书和工具书,阐述了Hadoop 生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop 集群的安装和运维。第Ⅰ部分 Hadoop基础知识 第1章 初识Hadoop 3 1.1 数据!数据! 3 1.2 数据的存储与分析 5 1.3 查询所有数据 6 1.4 不仅仅是批处理 7 1.5 相较于其他系统的优势 8 1.5.1 关系型数据库管理系统 8 1.5.2 网格计算 10 1.5.3 志愿计算 11 1.6 Apache Hadoop发展简史

图灵程序设计丛书《Hadoop实战》韩冀中译 扫描版PDF下载
编程书籍

图灵程序设计丛书《Hadoop实战》韩冀中译 扫描版PDF下载

119次浏览 0条评论

《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构师和项目经理阅读参考。第一部分 Hadoop——一种分布式编程框架 第1 章 Hadoop简介  2 1.1 为什么写《Hadoop 实战》  3 1.2 什么是Hadoop   3 1.3 了解分布式系统和Hadoop   4 1.4 比较SQL 数据库和Hadoop  5 1.5 理解MapReduce  6 1.5.1 动手扩展一个简单程序  7 1.5.2 相同程序在MapReduce中的扩展  9 1.6 用Hadoop统计单词——运行第一个程序  11 1.7 Hadoop历史  15 1.8 小结  16 1.9 资源  16 第2 章 初识Hadoop   17 2.1 Hadoop

大数据技术原理与应用(第2版):概念、存储、处理、分析与应用 林子雨著 PDF下载
编程书籍

大数据技术原理与应用(第2版):概念、存储、处理、分析与应用 林子雨著 PDF下载

107次浏览 0条评论

本书系统介绍了大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共15章,内容包含大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Spark、流计算、图计算、数据可视化以及大数据在互联网、生物医学领域和其他行业的应用。本书在Hadoop、HDFS、HBase、MapReduce和Spark等重要章节安排了入门级的实践操作,以便读者更好地学习和掌握大数据关键技术。 第一篇 大数据基础 第1章 大数据概述 2 1.1 大数据时代 2 1.1.1 第三次信息化浪潮 2 1.1.2 信息科技为大数据时代提供技术支撑 3 1.1.3 数据产生方式的变革促成大数据时代的来临 5 1.1.4 大数据的发展历程 6 1.2 大数据的概念 7 1.2.1 数据量大 7 1.2.2 数据类型繁多 8 1.2.3 处理速度快 9 1.2.4 价值密度低 9 1.3 大数据的影响 9 1.3.1 大数据对科学研究的影响 10 1.3.2 大数据对思维方式的影响 11 1.3

Elasticsearch大数据搜索引擎 PDF下载
编程书籍

Elasticsearch大数据搜索引擎 PDF下载

141次浏览 0条评论

Elasticsearch搜索集群系统在生产和生活中发挥着越来越重要的作用。本书介绍了Elasticsearch的使用、原理、系统优化与扩展应用。本书用例子说明了Java、Python、Scala和PHP的编程API,其中在Java搜索界面实现上,介绍了使用Spring实现微服务开发。为了扩展Elasticsearch的功能,本书以中文分词和英文文本分析为例介绍了插件开发方法。本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。第1章 使用Elasticsearch 1 1.1 基本概念 1 1.2 安装 2 1.3 搜索集群 5 1.4 创建索引 6 1.5 使用Java客户端接口 9 1.5.1 创建索引 11 1.5.2 增加、删除与修改数据 14 1.5.3 分析器 16 1.5.4 数据导入 17 1.5.5 通过摄取快速导入数据 17 1.5.6 索引库结构 17 1.5.7 查询 18 1.5.8 区间查询 22 1.5.9 排序 23 1.5.10 分布式搜索 23 1.5.11 过滤器

MongoDB大数据处理权威指南(第3版) PDF下载
编程书籍

MongoDB大数据处理权威指南(第3版) PDF下载

172次浏览 0条评论

《MongoDB大数据处理权威指南(第3版)》针对MongoDB 3做了精细更新,呈现MongoDB的所有最新特性,涵盖2.2版引入的聚集框架、2.4版引入的哈希索引以及3.2版本的WiredTiger,还新纳入Node.js和Python。MongoDB是最流行的“大数据”NoSQL数据库技术,目前仍在蓬勃发展。来自10gen的David Hows以及经验丰富的Peter Membrey和Eelco Plugge等MongoDB专家联袂撰写本书,在书中分享他们的宝贵专业知识和经验,向读者呈现成长为一名MongoDB专家需要了解的所有知识。主要内容● 在所有主流服务器平台上搭建MongoDB,包括Windows、Linux、OS X和云平台(如Rackspace、Azure和Amazon EC2)● 使用GirdFS和新的聚集框架● 使用非SQL命令处理数据● 使用Node.js和Python编写应用● 优化MongoDB● 精通掌握MongoDB管理方面的知识,包括复制、复制标签和标签分片第1章 MongoDB简介 1 1.1 了解MongoDB哲学 1 1.1.1 使用正确的工具处

图灵程序设计丛书《数据分析实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据分析实战》高清文字版PDF下载

147次浏览 0条评论

本书由实战经验丰富的两位数据分析师执笔,首先介绍了商业领域里通用的数据分析框架,然后根据该框架,结合8个真实的案例,详细解说了通过数据分析解决各种商业问题的流程,让读者在解决问题的过程中学习各种数据分析方法,包括柱状图、交叉列表统计、A/B测试、多元回归分析、逻辑回归分析、主成分分析、聚类、决策树分析、机器学习等。特别是书中使用的数据都是未经清洗的原始数据,能够让读者了解真实的数据分析流程,避免纸上谈兵。第1章 数据科学家的工作  1 1.1 什么是数据科学家  2 1.2 3种类型的数据科学家  5 1.3 数据科学家的现状  8 第2章 商业数据分析流程  9 2.1 数据分析的5个流程  10 2.2 现状和预期  12 2.3 发现问题  13 2.4 数据的收集和加工  19 2.5 数据分析  24 2.6 解决对策  27 2.7 小结  29 [分析基础]篇 第3章 案例1—柱状图 为什么销售额会减少  35 3.1 现状和预期  36 3.2 发现问题  38 3.3 数据的收集和加工  39 3.4 数据分析  46 3.5 解决对策  49 3.6 小结  50

Apache Kafka源码剖析 PDF下载
编程书籍

Apache Kafka源码剖析 PDF下载

177次浏览 0条评论

《Apache Kafka源码剖析》以Kafka 0.10.0版本源码为基础,针对Kafka的架构设计到实现细节进行详细阐述。《Apache Kafka源码剖析》共5章,从Kafka的应用场景、源码环境搭建开始逐步深入,不仅介绍Kafka的核心概念,而且对Kafka生产者、消费者、服务端的源码进行深入的剖析,最后介绍Kafka常用的管理脚本实现,让读者不仅从宏观设计上了解Kafka,而且能够深入到Kafka的细节设计之中。在源码分析的过程中,还穿插了笔者工作积累的经验和对Kafka设计的理解,希望读者可以举一反三,不仅知其然,而且知其所以然。《Apache Kafka源码剖析》旨在为读者阅读Kafka源码提供帮助和指导,让读者更加深入地了解Kafka的运行原理、设计理念,让读者在设计分布式系统时可以参考Kafka的优秀设计。《Apache Kafka源码剖析》的内容对于读者全面提升自己的技术能力有很大帮助。第1章 快速入门 1.1 Kafka简介 1.2 以Kafka为中心的解决方案 1.3 Kafka核心概念 1.4 搭建Kafka源码环境 本章小结 第2章 生产者 2.1  Kaf

图灵程序设计丛书《数据科学实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据科学实战》高清文字版PDF下载

141次浏览 0条评论

• 统计推断、探索性数据分析(EDA)及数据科学工作流程• 算法• 垃圾邮件过滤、朴素贝叶斯和数据清理• 逻辑回归• 金融建模• 推荐引擎和因果关系• 数据可视化• 社交网络与数据新闻• 数据工程、MapReduce、Pregel和Hadoop作者介绍   XII 关于封面图  XIII 前言  XIV 第1章 简介:什么是数据科学  1 1.1 大数据和数据科学的喧嚣  1 1.2 冲出迷雾  2 1.3 为什么是现在  3 1.4 数据科学的现状和历史  5 1.5 数据科学的知识结构  8 1.6 思维实验:元定义  10 1.7 什么是数据科学家  11 1.7.1 学术界对数据科学家的定义  12 1.7.2 工业界对数据科学家的定义  12 第2章 统计推断、探索性数据分析和数据科学工作流程  14 2.1 大数据时代的统计学思考  14 2.1.1 统计推断  15 2.1.2 总体和样本  16 2.1.3 大数据的总体和样本  17 2.1.4 大数据意味着大胆的假设  19 2.1.5 建模  21 2.2 探索性数据分析  26 2.2.1 探索性数据分析的哲学 

企业大数据处理 Spark、Druid、Flume与Kafka应用实践 PDF下载
编程书籍

企业大数据处理 Spark、Druid、Flume与Kafka应用实践 PDF下载

205次浏览 0条评论

《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》是一本立足于企业真实的商用项目来讲解如何高效从事大数据实践的著作。技术层面,从全栈的角度系统梳理和详尽讲解了大数据的核心技术,包括Spark、Druid、Flume、Kafka等,让我们在纷繁复杂的技术中少走弯路;经验层面,为企业的大数据技术选型和大数据平台建设提供了成熟的解决方案;实操层面,提供了大量的案例,其中包括2个综合性的案例。全书一共分为三个部分:第一部分(第1章):主要介绍了企业大数据系统的前期准备工作,包括构建企业大数据处理系统需要的软件环境和集群环境是如何搭建的。第二部分(第2~7章):依次重点讲解了Spark的基本原理、使用方法和优化方式;Druid的基本原理、集群的搭建过程,以及相关的各种操作;日志收集系统Flume的基本架构、关键组件,以及分层日志收集架构的设计与实践;分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章):详细讲解了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监