拥有 搜索引擎 标签的文章 共 7 条数据

Lucene搜索引擎开发权威经典 于天恩著 PDF下载
编程书籍

Lucene搜索引擎开发权威经典 于天恩著 PDF下载

2418次浏览 0条评论

《Lucene搜索引擎开发权威经典》基于Lucene的当前最新版本(2.1)精解了Lucene搜索引擎的相关知识,从基础知识到应用开发,精练简洁,恰到好处《Lucene搜索引擎开发权威经典》共包括16章,分为6部分。第1部分Lucene基础。介绍了Lucene的基础知识,包括Lucene的历史和发展情况、使用Lucene创建索引和执行搜索的基本方法以及中文分词的应用,最后做了两个应用项目。第2部分:数据解析。介绍解析不同格式数据(如Word、PDF等)的方法,包括常用的数据解析组件、Lucene自身的数据解析机制和Lius类库。第3部分:索引的高级知识。介绍了 Lucene建立索引的过程,索引的查看和删除,索引的同步,索引的合并和优化等内容。第4部分:搜索的高级知识。介绍使用不同的Query对象构建搜索请求,使用QueryParser解析用户的搜索请求,搜索结果的过滤和排序等内容。第5部分:Lucene应用实例。应用本节介绍的所有知识构建一个桌面搜索引擎和一个Web搜索引擎。这部分作为对前面所有内容的总结。第6部分:Nutch搜索引擎框架。介绍了基于Lucene的完整搜索引擎Nutch

搜索引擎:原理、技术与系统 PDF下载
编程书籍

搜索引擎:原理、技术与系统 PDF下载

2929次浏览 0条评论

《搜索引擎:原理技术与系统》系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。《搜索引擎:原理技术与系统》分三篇共13章内容,从基本工作原理概述,到一个小型简单搜索引擎具体细节的实现,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后介绍了面向主题和个性化的web信息服务,阐述了中文网页自动分类等技术及其应用。《搜索引擎:原理技术与系统》层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。前言第一章 引论第一节 搜索引擎的概念第二节 搜索引擎的发展历史第三节 一些著名的搜索引擎上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构第一节 基本要求第二节 网页搜集第三节 预处理第四节 查询服务第五节 体系结构第三章 Web信息的搜集第一节  引言一、超文本传输协议二、一个小型搜索引擎系统第二节 网页搜集一、定义LJRL类和Page类二、与服务器建立连接三、发送请求和接收数据四、网页信息存储的天网格式第三节 多道搜集程序并行工作一、多线程并发工作二、控制对一个站点并发搜集线程的数目第四节 如何避免网页的重复搜

深入搜索引擎:海量信息的压缩、索引和查询 PDF下载
编程书籍

深入搜索引擎:海量信息的压缩、索引和查询 PDF下载

2579次浏览 0条评论

《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。第1章 概览 1.1 文档数据库(DOCUMENT DATABASES) 1.2 压缩(COMPRESSION) 1.3 索引(INDEXES) 1.4 文档索引 1.5 MG海量文档管理系统 1.6 进一步阅读 第2章 文本压缩 2.1 模型 2.2 自适应模型 2.3 哈夫曼编码 范式哈夫曼编码 计算哈夫曼编码长度 总结 2.4 算术编码 算术编码是如何工作的 实现算术编码 保存累积计数 2.5 符号模型 部分

Elasticsearch大数据搜索引擎 PDF下载
编程书籍

Elasticsearch大数据搜索引擎 PDF下载

3078次浏览 0条评论

Elasticsearch搜索集群系统在生产和生活中发挥着越来越重要的作用。本书介绍了Elasticsearch的使用、原理、系统优化与扩展应用。本书用例子说明了Java、Python、Scala和PHP的编程API,其中在Java搜索界面实现上,介绍了使用Spring实现微服务开发。为了扩展Elasticsearch的功能,本书以中文分词和英文文本分析为例介绍了插件开发方法。本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。第1章 使用Elasticsearch 1 1.1 基本概念 1 1.2 安装 2 1.3 搜索集群 5 1.4 创建索引 6 1.5 使用Java客户端接口 9 1.5.1 创建索引 11 1.5.2 增加、删除与修改数据 14 1.5.3 分析器 16 1.5.4 数据导入 17 1.5.5 通过摄取快速导入数据 17 1.5.6 索引库结构 17 1.5.7 查询 18 1.5.8 区间查询 22 1.5.9 排序 23 1.5.10 分布式搜索 23 1.5.11 过滤器

解密搜索引擎技术实战:Lucene&Java精华版(第3版) 完整扫描版PDF下载
编程书籍

解密搜索引擎技术实战:Lucene&Java精华版(第3版) 完整扫描版PDF下载

3326次浏览 0条评论

解密搜索引擎技术实战:Lucene&Java精华版(第3版)是猎兔搜索开发团队的软件研发和教学实践的经验汇总。本书总结搜索引擎相关理论与实际解决方案,并给出了Java实现,其中利用了流行的开源项目Lucene和Solr,而且还包括原创的实现。本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现及在搜索引擎中的应用等细节,同时对文档排重、文本分类、自动聚类、句法分析树、拼写检查等自然语言处理领域的经典问题进行了深入浅出的介绍,并总结了实现方法。在全文检索部分,结合Lucene介绍了搜索引擎的原理与进展。用简单的例子介绍了Lucene的应用方法,包括完整的搜索实现过程:从完成索引到搜索用户界面的实现。第1章  搜索引擎总体结构 11.1  搜索引擎基本模块 11.2  开发环境 21.3  搜索引擎工作原理 31.3.1  网络爬虫 41.3.2  全文索引结构与Lucene实现 41

这就是搜索引擎:核心技术详解 张俊林著 PDF下载
编程书籍

这就是搜索引擎:核心技术详解 张俊林著 PDF下载

2899次浏览 0条评论

搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。目 录 第1章 搜索引擎及其技术架构 1 1.1 搜索引擎为何

SEO实战密码:60天网站流量提高20倍(第3版)昝辉Zac 扫描版PDF下载
编程书籍

SEO实战密码:60天网站流量提高20倍(第3版)昝辉Zac 扫描版PDF下载

2439次浏览 0条评论

本书是畅销书升级版,详细和系统地介绍了正规、有效的SEO实战技术,包括为什么要做SEO、搜索引擎工作原理、关键词研究、网站结构优化、外部链接建设、SEO效果监测及策略修改,SEO作弊及惩罚、排名因素列表、常用的SEO工具、SEO项目管理中需要注意的问题等专题,最后提供了一个非常详细的案例供读者参考。第3版增加了移动搜索优化、APP排名优化、百度2015年排名因素调查结果等新内容,并对前两版中不再适用的内容进行了调整,如删除已无法使用的SEO工具,增加新工具介绍,更新已产生变化的搜索结果页面抓图,修正一些新形势下的SEO观点等。本书不仅对需要做SEO的人员有帮助,如个人站长、公司SEO或网络营销人员、SEO服务公司人员等,对所有从事与网站相关工作的人都有参考价值,如网站设计人员、程序员、大中专院校网络营销和电子商务专业学生、网络公司技术和营销团队、传统商业公司电子商务团队等。第1章 为什么要做SEO1.1 什么是SEO1.2 为什么要做SEO1.3 搜索引擎简史第2章 了解搜索引擎2.1 搜索引擎与目录2.2 搜索引擎面对的挑战2.3 搜索结果显示格式2.3.1 搜索结果页面2.3.2