搜索引擎优化毕业论文( 爬虫子系统的一篇关于论文范文的论文范文,欢迎阅读借鉴!)
优采云 发布时间: 2022-02-23 06:19搜索引擎优化毕业论文(
爬虫子系统的一篇关于论文范文的论文范文,欢迎阅读借鉴!)
目录搜索引擎架构研究
爬虫子系统是搜索引擎获取资源的主要方式。以下是小编采集的关于目录搜索引擎架构研究的样文。欢迎阅读和学习。
介绍
信息检索系统主要为互联网用户提供资源检索服务。用户输入想要查找的资源信息(如部分资源名称、资源内容中相关的关键词等),针对检索需求进行资源匹配和资源定位,匹配的资源按照一定的顺序反馈给用户。搜索引擎是在信息检索系统的基础上发展起来的。目前的搜索引擎大致可以分为:目录搜索引擎、元搜索引擎、语义搜索引擎。基于目录的搜索引擎以目前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多语言的搜索)为代表。研究。
搜索引擎架构
与信息检索系统相比,搜索引擎在搜索词的输入上更加灵活。在资源预处理方面,搜索引擎系统优化了更多细节。在资源的相似度匹配方面,搜索引擎需要考虑更多。结合因素来量化用户搜索词与资源的相似度,最终的排序输出来源于许多优秀的排序算法。一般来说,搜索引擎主要分为:索引子系统、内容管理子系统、链接分析子系统和结果排序子系统。搜索引擎的架构如图 1 所示。
1、爬虫子系统
爬虫子系统是搜索引擎获取资源的主要方式。爬虫子系统在互联网环境下运行爬虫子程序,定期检查互联网资源,判断指定URL链接的内容是否发生变化,及时更新数据。并将更新后的数据反馈给数据库系统。爬虫子系统目前主要使用两种方式来爬取资源:增量爬取和累积爬取。增量爬取是指爬虫子系统根据当前URL链接增量遍历下一个网页;累积爬取是指根据当前URL链接遍历所有连接的网页,并将新获取的URL链接加入队列,完成遍历后,从队列中取出一个新的URL继续遍历。
2、索引子系统
索引子系统承担爬虫子系统的数据资源。互联网数据呈*敏*感*词*庸的相关武侠作品。:《神雕侠侣》和《龙八部》等。这种推理方式类似于我们的搜索引擎系统。用户可以通过输入相关的关键词和概念来获取对应的资源信息。
基于倒排索引的理论基础,我们重构了搜索引擎的数据资源。首先,需要对数据进行数据分割和关键词提取。中文的分词是一项非常复杂的任务。与英文不同,中文自然是用空格分隔的。中文分词需要汉字的序列。切分,切分后的每个单元都是一个关键词,中文的切分需要符合中文的语言规范和特点,并且要保证切分后的每个单元都是一个完整的语义部分,并且还需要考虑分割后语义的最大完整性。另一方面,在分词的过程中,有必要考虑去重停用词(对整个语义表达没有实际意义的词,如“的”)。分词和停用词操作相当于对数据的初始化处理。初始化完成后,数据的初始化就完成了。索引子系统的构建是基于数据的初始化。文档分词后,文档由一系列关键词组成,文档和关键词之间可以建立一个二维矩阵,二维矩阵中对应的权重信息表示关键词在文档中的权重信息,关键词可以通过多种方式计算文档中的权重,目前主要有:TF法、DF法、
3、链接分析子系统
链接分析子系统曾经是谷歌的算命算法,在数据挖掘和搜索引擎中享有盛誉。链接分析子系统对互联网中的数据进行建模和分析,发现互联网页面是通过URL链接建立的。网页之间的链接由超链接链接。通过对互联网链接关系的深入分析,网页质量越高,越容易被其他网页链接,反之亦然。质量评价模型:即一个网页的质量取决于其网页的链接数。网页的质量由 PageRank 值(PR 值)表示,如公式 1 所示。
PageRank(PR)值=重访概率+迭代访问概率(公式1).
假设互联网用户使用两种方式浏览网页:他们一、随机选择其中一个网页浏览网页目录。浏览后返回网页目录,选择新的URL进行访问;他们的一、@二、随机选择一个网页URL进行访问,从网页中提取URL链接列表,从URL链接列表中随机选择一个网页URL继续访问。我们定义了这种访问模式和随机游走模型,得到了网页质量的量化评价公式,如公式2所示。
式2中,p代表重访页面浏览的概率,对应的迭代访问概率为(1-p)。在迭代访问过程中,用户选择下一个页面访问的概率取决于PR值,从某个页面链接可能有多个网页,这意味着权重被平均分配给每个链接的网页。
4、结果排序子系统
结果排序子系统是用户直接与搜索引擎交互的部分。结果排序子系统对数据库中满足用户过滤条件的资源进行排序并输出。排序子系统需要综合考虑网页本身的PR值、用户搜索词与数据资源的相似度等诸多因素。同时,排序子系统需要考虑如何保证用户需要的资源排在最前面。相关研究发现,用户通常只点击搜索引擎结果的前几页,因此排序子系统不仅要保证结构输出的准确性,即准确率和召回率,还有一个非常重要的因素是第一页命中。速度。
总结
本文研究了当前主流目录搜索引擎的架构,主要讨论了爬虫子系统、索引子系统、链接分析子系统和结果排序子系统四个部分,并讨论了关键词技术的介绍。
参考:
[1] 杨晶晶,鞠世光,王秀红。基于Web的个性化搜索引擎研究[J].计算机工程与设计, 2008, 20: 5206-5208.
[2] 李广礼,刘觉夫.垂直搜索引擎系统的研究与实现[J].情报杂志,2009,10:144-147+169.
[3] 文碧龙,张轩,赵敬豪,赵满。企业搜索引擎个性化排序方法[J].计算机系统应用,2013,04:199-203.
[4] 童晓云,王竹.特定领域的智能搜索引擎技术研究[J]. 计算机应用研究,2004,05:49-51.
【目录搜索引擎架构研究】相关文章:
图书检索系统架构研究11-04
红帽认证架构简介 11-10
流媒体系统架构应用11-11
j2ee 技术架构 10-27
分布式系统架构实践05-31
关于分布式系统架构07-12
SOA架构下的企业系统集成 11-04
软件工程系统架构与开发分析07-20
医院成本核算系统架构论文08-11