拥有 数据挖掘 标签的文章 共 16 条数据

推荐系统:技术、评估及高效算法 [美]Francesco Ricci著 李艳民译 PDF下载
编程书籍

推荐系统:技术、评估及高效算法 [美]Francesco Ricci著 李艳民译 PDF下载

383次浏览 0条评论

推荐系统是为用户推荐所需物品的软件工具和技术,对于在线处理信息过载是一个非常有价值的方法,并成为电子商务领域最强大和流行的工具之一。本书融合不同领域专家学者的理论成果和实践经验,从推荐系统相关技术、推荐系统的应用与评估、推荐系统的交互、推荐系统和社区及高级算法5个方面介绍推荐系统的主要概念、理论、方法、趋势、挑战和应用,详细阐释如何支持用户决策、计划和购买过程,帮助你梳理推荐系统的相关知识体系,并理解推荐系统的原理、算法及实现。推荐序一 推荐序二 译者序 前言 第1章 概述 1 1.1 简介 1 1.2 推荐系统的功能 3 1.3 数据和知识资源 5 1.4 推荐技术 7 1.5 应用与评价 10 1.6 推荐系统与人机交互 12 1.6.1 信任、解释和说服力 13 1.6.2 会话系统 13 1.6.3 可视化 14 1.7 推荐系统是个交叉学科领域 15 1.8 出现的问题和挑战 16 1.8.1 本书对出现的问题的讨论 16 1.8.2 挑战 18 参考文献 20 第一部分 基础技术 第2章 推荐系统中的数据挖掘方法 28 2.1 简介 28 2.2 数据预处理 29 2.2.

数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面 王国平著 PDF下载
编程书籍

数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面 王国平著 PDF下载

305次浏览 0条评论

当前,经典的数据挖掘算法日趋成熟,相关标准和技术已经在各行各业得到广泛应用。为了使数据挖掘技术满足不同层次用户的需要,可视化数据挖掘技术被提出,通过可视化的手段将数据挖掘过程的各个阶段展示给用户,使用户能更好地理解过程,目前该技术已经成为数据挖掘领域的研究热点。《数据可视化与数据挖掘——基于Tableau和SPSS Modeler图形界面》旨在介绍最新的可视化数据挖掘技术,是作者多年工作经验的总结。内容基于 Tableau 10.3和 IBM SPSS Modeler 18.0 编写,详细介绍了 Tableau 的数据连接、图形编辑、创建地图、表计算和聚合计算等功能,以及 IBM SPSS Modeler 的数据连接、CRISP-DM(跨行业数据挖掘标准流程)等功能。通过实际案例,重点介绍了可视化数据挖掘技术在电信、电力、医药、银行、电商和房地产等行业中的应用,可以作为互联网、银行证券、电商等行业的从业者,以及高等院校相关专业学生参考使用。第1部分 数据可视化篇 第1章 可视化数据挖掘概述 2 1.1 数据可视化 2 1.1.1 Tableau 3 1.1.2 QlikView 5 1

R语言与数据挖掘 张良均著 PDF下载
编程书籍

R语言与数据挖掘 张良均著 PDF下载

275次浏览 0条评论

本书主要分为三个部分,基础篇、建模应用篇和Rattle篇。基础篇(第1~5章)介绍了有关R语言的安装与使用、R语言中的数据结构、常用操作和绘图功能等基础功能。建模应用篇(第6~10章)主要介绍了目前在数据挖掘中的常用的建模方法在R语言中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用R语言进行分析挖掘建模的方法。Rattle篇(第11章)介绍了一个R语言的图形界面工具。图书配套提供了程序代码及数据,读者可通过上机实验,快速掌握书中所介绍的R语言的使用方法。版权信息 前言 第一部分 基础篇 第1章 R语言的安装与使用 1.1 R安装与升级 1.2 R使用入门 1.3 R数据分析包 1.4 配套资源使用说明 1.5 小结 1.6 上机实验 第2章 数据对象与数据读写 2.1 数据类型 2.2 数据结构 2.3 数据文件的读写 2.4 小结 2.5 上机实验 第3章 R语言常用数据管理 3.1 变量的重命名 3.2 缺失值分析 3.3 数据排序 3.4 随机抽样 3.5 数值运算函数 3.6 字符串处理 3.7 文本分词 3.8 apply函数族 3.9 数据整合 3.10 控制流

写给程序员的数据挖掘实践指南 [美] Ron Zacharski著 王斌译 PDF下载
编程书籍

写给程序员的数据挖掘实践指南 [美] Ron Zacharski著 王斌译 PDF下载

245次浏览 0条评论

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。本书是写给程序员的一本数据挖掘指南,可以帮助读者动手实践数据挖掘、集体智慧并构建推荐系统。全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。本书采用“在实践中学习”的方式,用生动的图示、大量的表格、简明的公式、实用的Python代码示例,阐释数据挖掘的知识和技能。每章还给出了习题和练习,帮助读者巩固所学的知识。本书适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。内容提要 作译者简介 译者序 序 前言 第1章 数据挖掘简介及本书使用方法 第2章 协同过滤—爱你所爱 第3章 协同过滤—隐式评级及基于物品的过滤 第4章 内容过滤及分类—基于物品属性的过滤 第5章 分类的进一步探讨—算法评估及kNN 第6章 概率及朴素贝叶斯—朴素贝叶斯 第7章 朴素贝叶斯及文本—非结构化文本分类 第8章 聚类—群组发现

图灵程序设计丛书《Python数据分析基础教程(第2版):NumPy学习指南》高清文字版PDF下载
编程书籍

图灵程序设计丛书《Python数据分析基础教程(第2版):NumPy学习指南》高清文字版PDF下载

306次浏览 0条评论

NumPy是一个优秀的科学计算库,提供了很多实用的数学函数、强大的多维数组对象和优异的计算性能,不仅可以取代Matlab和Mathematica的许多功能,而且业已成为Python科学计算生态系统的重要组成部分。但与这些商业产品不同,它是免费的开源软件。本书从NumPy安装讲起,逐渐过渡到数组对象、常用函数、矩阵运算、线性代数、金融函数、窗函数、质量控制等内容,致力于向初中级Python编程人员全面讲述NumPy及其使用。另外,通过书中丰富的示例,你还将学会Matplotlib绘图,并结合使用其他Python科学计算库(如SciPy和Scikits),让工作更有成效,让代码更加简洁而高效。主要内容:在不同平台安装NumPy;用简洁高效的NumPy代码实现高性能计算;使用功能强大的通用函数;使用NumPy数组和矩阵;用NumPy模块轻松执行复杂的数值计算;Matplotlib绘图;NumPy代码测试。第1章 NumPy快速入门  1 1.1  Python  1 1.2  动手实践:在不同的操作系统上安装Python  1 1.3  Windows  2 1.4  动手实践:在Windo

图灵程序设计丛书《机器学习实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《机器学习实战》高清文字版PDF下载

279次浏览 0条评论

机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。目 录 第一部分 分类 第1章 机器学习基础  2 1.1  何谓机器学习  3 1.1.1  传感

数据挖掘十大算法 吴信东等著 PDF下载
编程书籍

数据挖掘十大算法 吴信东等著 PDF下载

366次浏览 0条评论

《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法,这十种算法是数据挖掘领域的顶级专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等,此外,在每章最后还给出了丰富的习题和精挑细选的参考文献,对于读者掌握算法基本知识和进一步研究都非常有价值,对数据挖掘、机器学习和人工智能等学科的课程的设计有指导意义。第1章C4.5 1 1.1引言2 1.2算法描述3 1.3算法特性6 1.3.1决策树剪枝6 1.3.2连续型属性8 1.3.3缺失值处理8 1.3.4规则集诱导9 1.4软件实现10 1.5示例10 1.5.1 Golf数据集10 1.5.2 Soybean数据集11 1.6高级主题11 1.6.1二级存储12 1.6.2斜决策树12 1.6.3特征选择12 1.6.4集成方法12 1.6.5分类规则13 1.6.6模型重述13 1.7习题14 参考文献15

Hadoop大数据挖掘从入门到进阶实战 邓杰著 PDF下载
编程书籍

Hadoop大数据挖掘从入门到进阶实战 邓杰著 PDF下载

372次浏览 0条评论

本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。前言第1章 集群及开发环境搭建1.1 环境准备1.2 安装Hadoop1.3 Hadoop版Hello World1.4 开发环境1.5 小结第2章 实战:快速构建一个Hadoop项目并线上运行2.1 构建一个简单的项目工程2.2 操作分布式文件系

深入搜索引擎:海量信息的压缩、索引和查询 PDF下载
编程书籍

深入搜索引擎:海量信息的压缩、索引和查询 PDF下载

343次浏览 0条评论

《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。第1章 概览 1.1 文档数据库(DOCUMENT DATABASES) 1.2 压缩(COMPRESSION) 1.3 索引(INDEXES) 1.4 文档索引 1.5 MG海量文档管理系统 1.6 进一步阅读 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分

图灵程序设计丛书《数据分析实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据分析实战》高清文字版PDF下载

433次浏览 0条评论

本书由实战经验丰富的两位数据分析师执笔,首先介绍了商业领域里通用的数据分析框架,然后根据该框架,结合8个真实的案例,详细解说了通过数据分析解决各种商业问题的流程,让读者在解决问题的过程中学习各种数据分析方法,包括柱状图、交叉列表统计、A/B测试、多元回归分析、逻辑回归分析、主成分分析、聚类、决策树分析、机器学习等。特别是书中使用的数据都是未经清洗的原始数据,能够让读者了解真实的数据分析流程,避免纸上谈兵。第1章 数据科学家的工作  1 1.1 什么是数据科学家  2 1.2 3种类型的数据科学家  5 1.3 数据科学家的现状  8 第2章 商业数据分析流程  9 2.1 数据分析的5个流程  10 2.2 现状和预期  12 2.3 发现问题  13 2.4 数据的收集和加工  19 2.5 数据分析  24 2.6 解决对策  27 2.7 小结  29 [分析基础]篇 第3章 案例1—柱状图 为什么销售额会减少  35 3.1 现状和预期  36 3.2 发现问题  38 3.3 数据的收集和加工  39 3.4 数据分析  46 3.5 解决对策  49 3.6 小结  50

图灵程序设计丛书《数据科学入门》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据科学入门》高清文字版PDF下载

437次浏览 0条评论

数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为“21世纪头号性感职业”。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识——数学和统计学。作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。通过阅读本书,你可以:学到一堂Python速成课;学习线性代数、统计和概率论的基本方法,了解它们是怎样应用在数据科学中的;掌握如何收集、探索、清理、转换和操作数据;深入理解机器学习的基础;运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型;探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。前言  xiii 第1章 导论  1 1.1 数据的威力  1 1.2 什么是数据科学  1 1.3 激励假设:DataSciencester  2 1.3.1 寻找关键联系人  3 1.3.2 你可能知道的数据科学家  5 1.3.3 工资与工作年限  8 1.3.4 付费账户  10 1

图灵程序设计丛书《数据科学实战》高清文字版PDF下载
编程书籍

图灵程序设计丛书《数据科学实战》高清文字版PDF下载

564次浏览 0条评论

• 统计推断、探索性数据分析(EDA)及数据科学工作流程• 算法• 垃圾邮件过滤、朴素贝叶斯和数据清理• 逻辑回归• 金融建模• 推荐引擎和因果关系• 数据可视化• 社交网络与数据新闻• 数据工程、MapReduce、Pregel和Hadoop作者介绍   XII 关于封面图  XIII 前言  XIV 第1章 简介:什么是数据科学  1 1.1 大数据和数据科学的喧嚣  1 1.2 冲出迷雾  2 1.3 为什么是现在  3 1.4 数据科学的现状和历史  5 1.5 数据科学的知识结构  8 1.6 思维实验:元定义  10 1.7 什么是数据科学家  11 1.7.1 学术界对数据科学家的定义  12 1.7.2 工业界对数据科学家的定义  12 第2章 统计推断、探索性数据分析和数据科学工作流程  14 2.1 大数据时代的统计学思考  14 2.1.1 统计推断  15 2.1.2 总体和样本  16 2.1.3 大数据的总体和样本  17 2.1.4 大数据意味着大胆的假设  19 2.1.5 建模  21 2.2 探索性数据分析  26 2.2.1 探索性数据分析的哲学 

图灵程序设计丛书《干净的数据:数据清洗入门与实践》高清文字版PDF下载
编程书籍

图灵程序设计丛书《干净的数据:数据清洗入门与实践》高清文字版PDF下载

375次浏览 0条评论

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!第1章  为什么需要清洗数据  1 1.1  新视角  1 1.2  数据科学过程  2 1.3  传达数据清洗工作的内容  3 1.4  数据清洗环境  4 1.5  入门示例  5 1.6  小结  9 第2章  基础知识——格式、 类型与编码  11 2.1  文件格式  11 2.1.1  文本文件与二进制文件  11 2.1.2  常见的文本文件格式  14 2.1.3  分隔格式  14 2.2  归档与压缩  20 2.2.1  归档文件  20 2.2.2  压缩文件  21 2.3  数据类

这就是搜索引擎:核心技术详解 张俊林著 PDF下载
编程书籍

这就是搜索引擎:核心技术详解 张俊林著 PDF下载

380次浏览 0条评论

搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。目 录 第1章 搜索引擎及其技术架构 1 1.1 搜索引擎为何

图灵程序设计丛书《R语言实战(第2版)》 高清文字版PDF下载
编程书籍

图灵程序设计丛书《R语言实战(第2版)》 高清文字版PDF下载

361次浏览 0条评论

本书注重实用性,是一本全面而细致的R指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近200页内容,介绍数据挖掘、预测性分析和高级编程。第一部分 入门 第1章 R语言介绍  3 1.1 为何要使用R  4 1.2 R的获取和安装  6 1.3 R的使用  6 1.3.1 新手上路  7 1.3.2 获取帮助  10 1.3.3 工作空间  10 1.3.4 输入和输出  12 1.4 包  13 1.4.1 什么是包  14 1.4.2 包的安装  14 1.4.3 包的载入  14 1.4.4 包的使用方法  14 1.5 批处理  15 1.6 将输出用为输入:结果的重用  16 1.7 处理大数据集  16 1.8 示例实践  16 1.9 小结  18 第2章 创建数据集  19 2.1 数据集的概念  19 2.2 数据结构  20 2.2.1 向量  21 2.2.2 矩阵  22 2.2.3 数组

图灵程序设计丛书《Python数据挖掘入门与实践》高清文字版PDF下载
编程书籍

图灵程序设计丛书《Python数据挖掘入门与实践》高清文字版PDF下载

438次浏览 0条评论

本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。第1章  开始数据挖掘之旅  11.1  数据挖掘简介  11.2  使用Python和IPython Notebook  21.2.1  安装Python  21.2.2  安装IPython  41.2.3  安装scikit-learn库  51.3  亲和性分析示例  51.3.1  什么是亲和性分析  51.3.2  商品推荐  61.3.3  在NumPy中加载数据集  61.3.4  实现简单的排序规则  81.3.5  排序找出最佳规则  101.4  分类问题的简单示例  121.5  什么是分类  121.5.1  准备数据集  131.5.2  实现OneR算法  141.5.3  测试算法  161.6  小结  18第2章