开发自己的搜索引擎---Lucene+Heritrix(第2版)[PDF][88.50MB]
内容简介
本书是一本介绍搜索引擎开发的书籍,通过本书,读者可以独立构建一个企业级的搜索引擎网站。本书讲解了搜索引擎与信息检索基础,Lucene入门实例,索引的建立,使用Lucene来搜索,排序,分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式,爬虫Heritrix,HTMLParser,DWR等内容。最后综合这些技术,构建了一个典型的垂直搜索系统,具有很强的商业实用价值。
本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
本书适合Java程序员和从事计算机软件开发的编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。
目录
第1章 搜索引擎与信息检索
1.1 搜索引擎的历史
1.1.1 萌芽:Archie、Gopher
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)
1.1.3 发展:Excite、Galaxy、Yahoo等
1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
1.2 信息检索系统的基本知识
1.2.1 信息检索系统
1.2.2 信息检索的过程
1.2.3 传统查找的优点和不足
1.2.4 使用索引提高检索速度
1.2.5 倒排索引
1.2.6 评价信息检索系统的标准
1.3 Lucene的简介
1.4 小结
第2章 Lucene入门实例
2.1 实例介绍
2.1.1 实例说明
2.1.2 开发过程
2.2 准备工作
2.2.1 将文档的全角标点转成半角标点
2.2.2 将大文档切分成多个小文档
2.2.3 预处理源文件的统一接口
2.3 创建Eclipse工程
2.3.1 准备工作
2.3.2 创建工程并引入Lucene的JAR包
2.3.3 运行文档预处理类
2.3.4 创建处理文档的索引类:IndexProcessor
2.3.5 创建检索索引的搜索类
2.4 运行效果
2.5 小结
第3章 索引的建立
3.1 Document逻辑文件
3.1.1 Lucene的Document
3.1.2 为Document添加多种Field
3.1.3 Document的内部实现
3.2 Field的内部实现
3.2.1 Field包含的类
3.2.2 Field类的构造方法
3.3 Lucene的索引工具IndexWriter
3.3.1 IndexWriter的初始化
3.3.2 向索引添加文档
3.3.3 限制每个Field中的词条的数量
3.4 Lucene索引过程详解
3.4.1 Lucene索引建立过程概览
3.4.2 使用addDocument方法向索引添加文档
3.4.3 DocumentWriter的addDocument方法
3.4.4 文档的倒排
3.4.5 对postingTable进行排序
3.4.6 将Posting信息写入索引
3.5 索引文件格式
3.5.1 索引的segment
3.5.2 .fnm格式
3.5.3 .fdx与.fdt格式
3.5.4 .tii与.tis格式
3.5.5 deletable格式
3.5.6 复合索引格式.cfs
3.6 索引过程的调优
3.6.1 合并因子mergeFactor
3.6.2 maxMergeDocs
3.6.3 minMergeDocs
3.7 索引的合并与索引的优化
3.7.1 FSDirectory与RAMDirectory
3.7.2 使用IndexWriter来合并索引
3.7.3 索引的优化
3.8 从索引中删除文档
3.8.1 索引的读取工具Index-Reader
3.8.2 使用文档ID号来删除特定文档
3.8.3 使用Field信息来删除批量文档
3.9 Lucene的同步问题
3.9.1 为什么要进行同步以及Lucene的同步法则
3.9.2 commit.lock与write.lock
3.10 Lucene 2.0的新类:IndexModifier类
3.11 小结
第4章 Lucene搜索
第5章 排序、过滤和分页
第6章 Lucene的分析器
第7章 Word、Excel和PDF的处理
第8章 Compass:封装了Lucene的框架
第9章 Lucene分布式
第10章 无比强大的网络爬虫Heritrix
第11章 搜索引擎综合实例:准备篇
第12章 搜索引擎综合实例:下载篇
第13章 使用正则表达式与HTML Parser分析网页
第14章 网页内容存储与索引
第15章 搜索引擎综合实例:交互篇
第16章 搜索引擎综合实例:Web篇
附录 Lucene 2.4更新内容
文档截图
一、推荐使用迅雷或快车等多线程下载软件下载本站资源。
二、未登录会员无法下载,登录后可获得更多便利功能,若未注册,请先注册。
三、如果服务器暂不能下载请稍后重试!总是不能下载,请点我报错 ,谢谢合作!
四、本站大部分资源是网上搜集或私下交流学习之用,任何涉及商业盈利目的均不得使用,否则产生的一切后果将由您自己承担!本站将不对任何资源负法律责任.如果您发现本站有部分资源侵害了您的权益,请速与我们联系,我们将尽快处理.
五、如有其他问题,请加网站设计交流群(点击这里查看交流群 )进行交流。
六、如需转载本站资源,请注明转载来自并附带链接
七、本站部分资源为加密压缩文件,统一解压密码为:www.aizhanzhe.com
- 1尚硅谷前端学科全套视频[AVI][130.72GB]
- 2深入理解php:高级技巧、面向对象与核心技术(原书第3版) 【PDF】
- 3开发高质量PHP框架与应用的实际案例解析【PDF】
- 4响应式Web图形设计 ([美]Christopher Schmitt) 中文【PDF】
- 5响应式Web设计:HTML5和CSS3实践指南【PDF】
- 6响应式Web设计:HTML5和CSS3实战 第2版 (本·弗莱恩) 中文【PDF】
- 7Axure RP8 实战手册 网站和APP原型制作案例精粹(小楼一夜听春语) 试读版【PDF】【15.4MB】
- 8[马上学Android]安卓开发视频教程
- 9Android开发视频教程
- 10PHP100视频教程
- 1Java编程思想On Java 8[PDF][中文][英文][源码][15.31MB]
- 2PostgreSQL实战 (谭峰等著)【PDF】【221.29MB】
- 3【机器学习】菜菜的sklearn课堂(1-12全课)[PDF][源码][157.45MB]
- 4UNREAL ENGINE 4蓝图完全学习教程[PDF][66.67MB]
- 5加密与解密(第4版)[PDF][光盘源码][1.15GB]
- 6Qt 5.9 C++开发指南[PDF][276.26MB]
- 7Python数据分析与应用PPT、教案、实训数据、习题答案[PPT][142.49MB]
- 8数据中台:让数据用起来[PDF][12.80MB]
- 9计算机网络:自顶向下方法(第7版) 【PDF】【英文】【17.46MB】
- 10大话5G:走进万物互联新时代【PDF】【37.31MB】