搜索引擎优化pdf(解密搜索引擎技术实战:LuceneJava精华版(第3版))
优采云 发布时间: 2022-01-15 17:19搜索引擎优化pdf(解密搜索引擎技术实战:LuceneJava精华版(第3版))
解读搜索引擎技术实战:Lucene&Java精华版(第3版)是对猎兔搜索开发团队软件开发和教学实践经验的总结。本书总结了搜索引擎的相关理论和实际解决方案,并给出了一个Java实现,它利用了流行的开源项目Lucene和Solr,还收录了原创的实现。本书主要包括通论部分、爬虫部分、自然语言处理部分、全文检索部分及相关案例分析。
爬虫部分介绍了网页遍历方法以及如何实现增量爬取,介绍了从网页等各种格式的文档中提取主要内容的方法。
自然语言处理部分从统计机器学习的原理出发,包括中文分词和词性标注的理论与实现及其在搜索引擎中的应用。用通俗易懂的语言介绍了拼写检查等自然语言处理领域的经典问题,并总结了实现方法。
在全文检索部分,结合Lucene介绍了搜索引擎的原理和进展。用一个简单的例子来介绍Lucene的应用方法,包括完整的搜索实现过程:从完成索引到实现搜索用户界面。
内容
第 1 章搜索引擎的一般结构 1
第二章网络爬虫原理与应用 11
第三章 索引内容提取 86
第四章中文分词原理与实现144
第 5 章让搜索引擎理解自然语言 199
第6章 Lucene原理与应用303
第7章搜索引擎用户界面370
第 8 章使用 Solr 实现企业搜索 413
第 9 章 GIS 案例研究 474
第10章户外搜索案例研究495