,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,

优采云发布时间: 2021-07-02 06:15

　　[摘要]：互联网已经成为人们获取信息的直接途径，与人们的生活息息相关。一般的搜索引擎检索范围广，内容全面，满足用户搜索的基本需求，但返回的结果中收录了大量无关信息。垂直搜索引擎弥补了一般搜索引擎的不足。垂直搜索引擎搜索范围小，只收录某个领域或某个主题的内容。它确保了搜索结果的相关性。而且，垂直搜索引擎对网页信息进行预处理，改变结构，将定制的数据返回给用户，使搜索结果清晰呈现。论文对通用搜索引擎和垂直搜索引擎的相关原理、技术和实现过程进行了探讨和研究，并对涉及的主题网络爬虫、信息结构提取、中文分词技术和中文全文搜索引擎工具Coreseek进行了介绍和分析。垂直搜索引擎。论文所做的主要工作是：论文采用MMSEG分词算法对图书信息进行分割。为了更准确地切分与图书相关的专有名词，对Lib MMSeg词汇进行了扩充，并使用改进后的词库进行对比实验，改进后的词库可以准确切分图书作者、出版商等名词； Coreseek 全文搜索工具的排序算法进行了修改，以与 Coreseek 的基本排序算法进行比较。实验结果表明，改进后的CORE_RANK排序算法更适合短文本书籍搜索，为用户返回更满意的答案。最后实现DouCrawler网络爬虫系统，对豆瓣网站的图书信息进行爬取，结构化提取网页信息，分词，建立索引，展示搜索结果，一个面向图书信息的搜索引擎完成。

0

2021-07-02

天津搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,

0 个评论

发起人

AI时代内容工厂

,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,

0 个评论

发起人

相关问题