解密搜索引擎技术实战:LuceneampJava精华版(第3版)
优采云 发布时间: 2021-07-12 04:05
解密搜索引擎技术实战:LuceneampJava精华版(第3版)
解密搜索引擎技术实战:Lucene&Java精华版(第3版)是猎兔搜索开发团队软件开发及教学实践经验总结。本书总结了搜索引擎相关的理论和实用的解决方案,并给出了一个Java实现,它使用了流行的开源项目Lucene和Solr,还包括了原创的实现。本书主要包括整体介绍部分、爬虫部分、自然语言处理部分、全文搜索部分及相关案例分析。
爬虫部分介绍了网络遍历的方法以及如何实现增量爬取,并介绍了从网页等各种格式的文档中提取主要内容的方法。
自然语言处理部分从统计机器学习的原理出发,包括中文分词和词性标注的理论与实现,以及在搜索引擎中的应用。同时,它还对文档进行排序、文本分类、自动聚类和语法。简单介绍了自然语言处理领域的经典问题,如分析树和拼写检查,并总结了实现方法。
全文搜索部分结合Lucene介绍了搜索引擎的原理和进展。通过一个简单的例子来介绍Lucene的应用方法,包括完整的搜索实现过程:从索引的完成到搜索用户界面的实现。
±¼
第 1 章搜索引擎的总体结构 1
第2章Web爬虫原理及应用11
第 3 章索引内容提取 86
第4章中文分词原理及实现144
第5章让搜索引擎理解自然语言199
第 6 章 Lucene 原理与应用 303
第 7 章搜索引擎用户界面 370
第 8 章使用 Solr 实现企业搜索 413
第9章地理信息系统案例分析474
第10章户外活动搜索495案例分析