搜索引擎优化论文(1.:网络爬虫,策略,搜索引擎网络快速发展的)
优采云 发布时间: 2021-12-05 12:05搜索引擎优化论文(1.:网络爬虫,策略,搜索引擎网络快速发展的)
论文介绍: 传统搜索引擎有雅虎、谷歌、百度等,这些检索信息的工具是人们每天上网的唯一途径。网络爬虫是搜索引擎的重要组成部分。它是一种自动提取网页并从互联网上下载网页以供搜索引擎使用的程序。然后,它会根据一定的搜索策略从队列中选择下一步要爬取的网页的网址,重复上述过程,直到达到系统的某个条件时停止。
关键词:网络爬虫、策略、搜索引擎
在互联网飞速发展的今天,互联网承载着海量的信息,如何准确快速地提取出我们需要的信息是一个挑战。传统的搜索引擎包括雅虎、谷歌、百度等。这些检索信息的工具是人们每天上网的唯一途径。然而,这些传统的搜索引擎都有局限性。他们无法全面准确地找到所需的信息,还可以搜索与需求无关的内容。它严重降低了使用这些信息的效率,因此提高信息检索的速度和质量是专业搜索引擎的主要研究内容。
1.搜索引擎研究
1.1 搜索引擎的分类
搜索引擎按其工作方式可分为三种,即全文搜索引擎、目录索引搜索引擎[1]和元搜索引擎。
1. 全文搜索引擎
全文搜索引擎是最常用的搜索引擎。最熟悉的就是国外代表谷歌和中国代表百度。他们通常提取每个网站的网页文本并存储到建立的数据库中,检索出符合用户查询条件的相关记录,然后按照自己设置的顺序将结果返回给用户。
从搜索结果的来源来看,全文搜索引擎可以细分为两种类型。一是他们有自己的搜索程序,有自己的网页数据库,搜索的内容直接从自己的数据库中调用,比如谷歌、百度。; 另一种是租用其他引擎的数据库,但是按照自定义格式排列搜索结果,比如Lycos引擎。
2. 目录索引搜索引擎
目录索引是对网站进行分类存放在对应的目录中。用户在查询需要的内容时有两种选择。一种是搜索关键词,一种是按类别排序。逐层查找。按信息相关程度排序,但人为因素较多。如果按层级目录搜索,网站在某个目录中的排名按标题字母顺序由关键词搜索。返回结果与搜索引擎相同,也是按照自定义顺序确定的。
目录索引只能说是有搜索功能,但它只是一个按目录分类的网站链接列表。用户无需进行关键词查询,仅依靠分类目录即可找到自己需要的信息。最具代表性的目录索引搜索引擎是雅虎(Yahoo)。其他比较有名的还有Look Smart、About等,国内搜狐、新浪、网易搜索也属于这一类。
3.元搜索引擎
当用户进行查询时,元搜索引擎可以同时在多个其他引擎上进行搜索,对搜索结果进行统一处理,并以统一格式返回给用户。正因如此,这类搜索引擎的优点是返回的信息量比较全面,缺点是无用信息太多,无法准确找到用户需要的结果。
代表性的元搜索引擎有Dogpile、InfoSpace、Vivisimo等。在中国元搜索引擎中,有一个著名的搜索引擎叫搜星。
在搜索结果的排名方面,不同的元搜索引擎对结果的排名方式不同。比如Dogpile直接按照源引擎来排列搜索结果,比如Vivisimo,就是按照自定义规则对结果进行重新排列。论文发表。
1.2 搜索引擎的工作原理
搜索引擎主要用于自动采集用户请求的信息。该功能分为两种:一种是定期搜索,即搜索引擎主动定期发出“蜘蛛”程序,目的是在一定范围内的IP地址范围内进行搜索。网站进行搜索,如果发现新的网站,会自动提取网站的信息和URL并添加到自己的数据库中;另一种是提交网站搜索,即网站的拥有者主动向搜索引擎提交URL,搜索引擎会在一个时间内向你的网站发送一个蜘蛛程序一定时间,扫描您的网站并将相关信息存入数据库,以备用户查询。
如果用户用关键词查询需要的信息,搜索引擎会在数据库中进行搜索。如果找到与用户请求的内容相匹配的网站,搜索引擎通常会参考网页中的关键词匹配程度、出现位置/出现频率、链接质量等特殊算法计算每个网页的相关度和排名等级,然后根据相关度等级将用户需要的内容依次反馈给用户。
2.网络爬虫
2.1 通用网络爬虫和聚焦网络爬虫的工作原理
网络爬虫是搜索引擎的重要组成部分。它是一种自动提取网页并从互联网上下载网页以供搜索引擎使用的程序。
传统爬虫从一个或多个初始网页的网址开始,获取初始网页上的网址。在爬取网页的过程中,他们不断地从当前页面中提取新的URL并将它们放入队列中,直到满足系统的某个停止条件。论文发表。
与传统爬虫相比,聚焦爬虫的工作流程更加复杂。需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,放入URL队列等待被抓取。然后,它会根据一定的搜索策略从队列中选择下一步要爬取的网页的网址,重复上述过程,直到达到系统的某个条件时停止。另外,所有爬虫爬过的网页都会被系统存储起来进行一定的分析、过滤和索引,以方便后续的查询和检索。
2.2 网络爬虫的搜索策略
1.IP地址搜索策略
IP地址搜索策略是先给爬虫一个起始IP地址,然后根据IP地址以增量方式搜索IP地址段之后的每个地址中的文档。它没有考虑到每个文档都指向其他网站的事实。链接地址。这种搜索策略的优点是搜索更全面,因此可以找到其他文档没有引用的新文档的信息源;但缺点是不适合*敏*感*词*搜索。
2. 深度优先搜索策略
深度优先搜索是在爬虫开发初期使用较多的一种方法。它的目的是到达搜索结构的叶节点(即那些不收录任何超链接的 HTML 文件)。For example, in an HTML file, when a hyperlink is selected, the linked HTML file will perform a depth-first search, that is to say, a single link must be searched completely before searching the remaining hyperlink results. 深度优先搜索沿着HTML文件上的超链接走,直到不能再深入,然后返回到某个HTML文件,然后继续选择HTML文件中的其他超链接。当没有其他超链接可供选择时,搜索结束。
3. 广度优先搜索策略
广度优先搜索的过程是先搜索一个网页中的所有超链接,然后继续搜索下一层,直到下一层。例如,一个HTML文件中有三个超链接,选择其中一个处理对应的HTML文件,然后第二个HTML文件中不再选择任何超链接,而是返回选择第二个超链接,处理对应的HTML文件,再次返回,选择第三个超链接并处理相应的HTML文件。当第一层的所有超链接都被选中后,您就可以开始在刚刚处理的 HIML 文件中搜索剩余的超链接了。
广度优先搜索策略的优点:一是保证了浅层的优先处理,当遇到无穷无尽的深分支时,不会导致被困在WWW中的深层文档出现不可用;另一个是它可以找到两个 HTML 文件之间的最短路径。
广度优先搜索策略通常是实现爬虫的最佳策略,因为它易于实现并且具有大部分想要的功能。论文发表。但是如果你想遍历一个指定的站点或一组深度嵌套的 HTML 文件,使用宽度优先搜索策略将需要相对较长的时间才能到达深层 HTML 文件。
2.3 网络爬虫的发展趋势
随着AJAX/Web2.0的流行,如何抓取AJAX等动态页面成为搜索引擎亟待解决的问题。如果搜索引擎仍然使用“抓取”机制,则抓取AJAX页面是无效的。数据。对于 AJAX 等技术,所需的爬虫引擎必须是基于驱动的。如果要实现事件驱动,首先需要解决以下问题:一是JavaScript的交互分析和解释;二、DOM事件的处理和解释;第三,动态DOM内容语义的提取。
3.结论
本文阐述了搜索引擎的原理以及网络爬虫的工作原理和发展趋势。网络爬虫的研究对搜索引擎的应用和发展具有重要意义。把握准确度和速度两大方向,进一步深入网络爬虫技术,在消耗最少网络资源的前提下,搜索引擎可以更准确、更快速地找到人们的需求。
参考
[1] Edwards, J.,McCurley, KS 和 Tomlin, JA (2001).'一种用于优化增量网络爬虫性能的自适应模型'. 万维网第十届会议论文集(香港) : Elsevier Science): 106–113.doi:10.1145/371920.371960.
[2] 刘金红,陆玉良,专题网络爬虫研究综述,计算机应用研究所,2007(10):26-27.
[3] 王艳,搜索引擎中网络爬虫技术的发展,电信快车,2008 (10): 19-20.
[4] 刘诗涛, 搜索引擎中网络爬虫搜索策略简析, 阜阳师范大学学报, 2006 (9): 60-61.