,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,
优采云 发布时间: 2021-07-02 06:15,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,
[摘要]:互联网已经成为人们获取信息的直接途径,与人们的生活息息相关。一般的搜索引擎检索范围广,内容全面,满足用户搜索的基本需求,但返回的结果中收录了大量无关信息。垂直搜索引擎弥补了一般搜索引擎的不足。垂直搜索引擎搜索范围小,只收录某个领域或某个主题的内容。它确保了搜索结果的相关性。而且,垂直搜索引擎对网页信息进行预处理,改变结构,将定制的数据返回给用户,使搜索结果清晰呈现。论文对通用搜索引擎和垂直搜索引擎的相关原理、技术和实现过程进行了探讨和研究,并对涉及的主题网络爬虫、信息结构提取、中文分词技术和中文全文搜索引擎工具Coreseek进行了介绍和分析。垂直搜索引擎。 论文所做的主要工作是:论文采用MMSEG分词算法对图书信息进行分割。为了更准确地切分与图书相关的专有名词,对Lib MMSeg词汇进行了扩充,并使用改进后的词库进行对比实验,改进后的词库可以准确切分图书作者、出版商等名词; Coreseek 全文搜索工具的排序算法进行了修改,以与 Coreseek 的基本排序算法进行比较。实验结果表明,改进后的CORE_RANK排序算法更适合短文本书籍搜索,为用户返回更满意的答案。最后实现DouCrawler网络爬虫系统,对豆瓣网站的图书信息进行爬取,结构化提取网页信息,分词,建立索引,展示搜索结果,一个面向图书信息的搜索引擎完成。