网站内容更新策略(湖南大学硕*敏*感*词*大型网站的网页更新策略研究(组图))

优采云 发布时间: 2022-04-06 13:05

  网站内容更新策略(湖南大学硕*敏*感*词*大型网站的网页更新策略研究(组图))

  湖南大学硕士论文大型搜索引擎网站网页更新策略研究名称:易贤应用学位等级:硕士专业:软件工程导师:欧阳六波; 网站的网页更新策略研究总结 在互联网飞速发展的今天,互联网逐渐成为人们获取信息不可或缺的方式,因此基于互联网信息检索的搜索引擎应运而生并蓬勃发展。 然而,随着网页数量的爆炸式增长,网页的内容变化频繁,使得搜索引擎无法及时跟踪网页本身的内容变化。此外,搜索引擎还受到存储容量、服务器能力等硬件资源的限制。目前,搜索引擎普遍存在索引数据库更新不及时、查询结果质量低等问题。在这些客观条件的约束下,如何设计高性能、高效率的网页更新策略,让搜索引擎能够抓取到更高质量的网页,提高网页库的新鲜度,成为搜索引擎亟待解决的问题。解决。大网站是Web的信息核心,也是搜索引擎的主要信息来源。处理大型 网站 页面的质量直接影响搜索引擎的整体性能。因此,本文试图通过对大型网站网页的高效更新来提高搜索引擎索引数据库的更新程度。本文在搜索引擎网页更新策略相关研究的基础上,深入分析和比较了现有的三种网页更新策略,确定了对*敏*感*词*网站网页进行分类更新的必要性。

  针对大型网站网页的特点,考虑Web服务器的新颖性、重要性和友好性等因素,设计了一种面向用户体验的分类网页更新策略。该方法根据大型网站网页的更改历史评估更改频率,将网页分为快速变化、频繁变化和变化少三类,进而确定不同类型网页的更新速度和更新时间基于用户行为分析段,从而实现网页更新。最后,设计并实现了一个分类网页更新系统,利用Lucene工具包对新浪和搜狐两家知名大型网站的几个网页进行了实验采样和分析。实验结果表明,该策略大大提高了搜索引擎中大型网站网页的更新效率,缓解了Web服务器的压力,保证了用户检索结果的及时性和正确性。 关键词:大网站;搜索引擎;网页更新; tnowa day s,new w or r kbe com esa nin d disp en sa blem e an sinfo ca atio n r e trie v a loc ur san ddeve lops。然而,随着人数的增加,当人们无法跟踪参与活动时,对计划的控制也越来越频繁。 Theaarch engine sba se don on Intem ethe d y n a m ic c on 10 to fpages。由于 Stor ge cap pa city 的限制,se IVerbo ttle nec kan doth er h ar in dwar r er es o ur ac econ Str tr 存在严重的问题,例如数据数据ba sec an t be up date d time e ly , and the 等 ua lityo fque y e sult is no tide al.因此,如何设计 e sign tup d a te g y t g y for p a g e t o m e tiaKe Ypr o b le m f o re x t a c fhigh hqu a lity p a g e san di m promen en to f p p a g e s s 7 fresh n e ss · Large。 sca lew e b 站点是 s o ur c e o t sear c nengs 的合作伙伴。直到今天与 ela r g esca lew e b site ef f e telyor no o th a s di ir ec t1m pact to o v e r o a l f e rman c eoff se a arch engine. Inth isp aper eff for tsar em ade toim proveth e fresh sh n ess o fin d ex d ta ta ba s ebye fff fic ie n tr efresho flarg e'sea lewe bp ag es·Base the don th e in ter r ela ted re se ar c cho f the ep page es refre sh str a tegy, thean lclee m bed ddd na ly ze dan dc 与 reca te gor rie sstra te g yw h ic hh a vebeenke Pt, and d confi che edth en ec esssa ryfor 分类更新 lar g e-SC alew eb 网站的 dateth epa ge。陷阱设置 ef e a ture o flag e。规模,这篇文章考虑到作为重要角色的成功者和我们的新鲜感,我们是 Web 服务器的朋友。

  我。 Hend e 签署了一个新的类 sified refre sh str a te g ywh ichorieted user exper le n ce lh isstr a teg ytoassessse dth ech ang geo f the ep ag geo flar g e-scal lesite infrequ en c Yb Y 页。历史性的变化,分为 d th ispage sin to th r e ec ate​​ gor rie ssuc ch a sra pidch ang ge 'f a st hange 和缓慢的变化。 Thanba sedon us ersp e do fd iff fer en tcateg ori e so fwe bpa g eup date te sp e e f resh .最后,一页。类别 gor iz in gr ef r eshr ou tin e is design e db eh av io ra na ly sisto d inoterm inthea n du pda te tetime e, rtoachievefo undatio noofLucen eto olkit, which isthen used to samplefr omtw o we e ll- know nwebsites, Sin和搜狐。结果 yeeatlyim 提出了有效的 cyo fp a g e an dimp le mente donthean dan a ly ze eso m ep a g e sprove sth at the rate g ypre ssu r e o f Web s e vers 关键词:更大的 Scale 网站;搜索引擎;页面刷新;图 1. eIII 搜索引擎中大型模拟网站网页更新策略研究插图索引。 1 搜索用户规模………………………………………………………………………… 2 图 2. 1 搜索引擎的工作原理 8 图 2. 2. 搜索引擎的主要组织结构搜索引擎……………………………………………………。 . 9 图 2. 3 倒排索引结构 ................................................... ..................................................... ................................................... 10 图 2. 4. 一个新的和年龄的变化单个网页……………………………………。 13 图 2. 5. 单个网页的新颖性和年龄期望的变化………………………………。 . 15 图2. 6. 网页更新时间点分布………………………………………………. 19 图 3. 1 用户使用搜索引擎检索到的内容分布………………………………………… 23 图 3. 2. 大网站@的子网站划分> 。 24 图 4. 1 LUCEN E 系统结构组织*敏*感*词*.......................... ..................................................... ......................................................... 32 图 4. 2 LUCEN E 分词流程……………………………………………………………………34 图 4 . 3.分类网页更新系统设计图…………………………………………………… . 36 图 5. 1. 网页抓取模块流程图...................................... ..................................................... .................... 40 图 5. 2 第一次更新在早上 6:00 开始时………………………………………… 4 8 图 5. 3.下午16:00开始第二次更新的情况……………………………………。 4 9 图 5. 4 新页面的实际生成.......................... ..................................................... ...................... 4 9V I 下程硕}j 论文附录索引表 3. 1 child 网站Type... ……………………………………………………………………… 26 表 3. 2 倒排索引的具体形式............ ..................................................... ..................................................... . 30 表 4. 1 Lucen 系统封装表 .................................................... ..................................................... …………………………………………………………………………………………………………………………………………………… 33 表5. 1 文档解析模块接口表……………………………………………………. . 4 2 表5. 2. 原创网页信息表页面…………………………………………………………4 7 表5. 3 索引页面和链接表链接………… ………………………………………… 4 7 表 5. 4 分词词典表词……………………………………………………………… . . 4 7 表 5. 5 停用词列表 stop ……………………………………………………………… . 4 7 表5. 6. 大网站s…………………………………………的子网站测试样本。 4 8 表5. 7 三种网页更新策略的效果对比………………………………………………. 50Ⅵ1T成顺{?学位论文1. 1课题研究背景第一章引言信息的产生、传播、采集和查询是人类最基本的活动之一。

  传统上以文字为载体的信息,其粒度通常为“书”或“文章”,通常由图书馆、相应的编目系统和专业人士获取。随着计算机技术和信息技术的蓬勃发展,出现了书籍或文献的全文检索系统,使我们能够以“关键词”为粒度轻松获取所需信息。然而,这样的全文检索系统一般工作在规模相对有限、内容相对稳定的馆藏上。检索到的对象基本都是手动过滤的,系统需要同时响应的查询数量通常不会太大。上世纪末,万维网(Web)出现,其信息的开放性和广泛的可访问性极大地激发了人们的创造力,它总是以最宽广的胸怀接受来自世界的新信息。任何人都可以在网络上畅所欲言,基本实现全球信息共享。与全文检索系统的工作对象相比,Web作为一种包罗万象、包罗万象的信息源,具有规模庞大、内容不稳定的特点。如何让这些资源井然有序,如何让人们找到他们真正需要的东西?信息已成为信息技术领域研究的热点和难点,因此搜索引擎应运而生。所谓“搜索引擎”,其实是一种特殊的全文检索系统。归根结底,它是一个计算机应用软件系统,或者说是一个网络应用软件系统。 . .

  本系统以一定的策略预先采集互联网上的信息,并在对信息进行整理、处理后为用户提供检索服务。从用户的角度来看,搜索引擎提供了一个收录搜索框的页面。在搜索框中输入一个单词并通过浏览器提交给搜索引擎后,搜索引擎会返回一个与用户输入的内容相关的信息列表。当用户觉得返回的结果列表中的某一项可能是他需要的信息时,点击URL获取网页的全部内容,此时访问网页的原创来源。搜索引擎刚诞生的时候并不被看好,但到了这个世纪,它已经成为势不可挡的互联网应用,以至于人们不得不说搜索,而它所蕴含的巨大商机让各大互联网巨头在搜索领域展开了竞争白热化程度。据调查统​​计,截至2008年底,中国搜索引擎用户数达到2.2%。与2007年底相比,搜索引擎用户数增加了5100万,年增长率为3300万。 6%。目前,全国网民搜索引擎使用率为68%,在各类互联网应用中排名第三,仅次于网络音乐和网络新闻。图 1 搜索引擎中人型网站的网页更新策略研究。 1 搜索用户规模谁能掌握最好的搜索技术,谁就能成为世界信息中心II!那么什么样的搜索引擎才能称得上优秀呢?谷歌创始人拉里佩奇说过一句话完美地概括了搜索引擎的真谛,要“准确地为用户提供他们需要的信息”,做到这一点并不容易。东西。

  事实上,很多专家认为,现实世界中没有搜索引擎可以完全做到这一点,这意味着搜索引擎还有很多需要改进的地方。搜索引擎无法准确地为用户提供他们需要的信息的原因是什么,取决于Web本身的特性:(1)规模巨大。短短10多年,网页数量由2008年底,谷歌搜索引擎在万维网上检索了至少一万亿个网页,而到2009年底,中国的网页数量大约为336亿。(2)内容不稳定。在除了不断生成新页面,旧页面的内容也会不定期的更改或删除。有研究指出,50%的网页的平均生命周期约为50天[5]o(3)新网页的生成周期不一致,由于各个网站所关心的内容不同,或者网站管理员的习惯等,新页面的生成时间参差不齐。时间单位每个月都不一样,正是由于以上因素,搜索引擎很难o 及时跟踪网页的变化。由于硬件资源的限制,例如硬件资源的限制,本地网页更新不及时、查询结果质量低的问题在搜索引擎中很常见。网页,提高网页库的新鲜度,从而提高搜索引擎查询结果的质量,让用户获得更及时有用的信息,已成为搜索引擎亟待解决的问题。

  在目前的技术水平上,搜索引擎对网页资源的抓取是比较完整的,但是在网页抓取完成后的一定时间内,搜索引擎如何“命令”网络蜘蛛再次抓取网页? fetch,更新被收录改变的页面内容,找到并提取新的525l5021O丁承硕。 }j毕业班的网页,所谓的“网页更新”,还有待完善。因此,一个优秀的本地网页库的网页更新策略是必不可少的。该策略既要综合考虑网页的新鲜度和重要性、搜索引擎的硬件资源限制以及爬虫程序对Web服务器的友好性等因素,又要满足用户对更准确、更及时的检索结果的要求。本文在分析不同网页更新策略的基础上,提出了一种适用于Web中*敏*感*词*网站的可行的网页更新策略,试图取得一些突破。 1. 2.*敏*感*词*研究现状 早期的搜索引擎通常采用统一的周期性信息更新策略。 然而,本地数据库的规模日益扩大,通常可以收录数千万页的文档。假设在一个更新过程中验证一个页面文档的有效性需要一秒钟,那么需要完成数千万个网页。验证至少需要几天时间。

  事实上,有些页面已经被删除或者根本没有改变,没有必要不断地验证它们的有效性。为此,增量信息更新方法H1再次出现。这种方法的基本思想是:互联网上大量网页的变化是不一致的,有些是无常的,有些是非常稳定的。因此,应以网页的变化周期作为有效性验证的依据。 , 只更新那些最有可能改变的页面。随着几位学者的不懈研究和整理,更多关于搜索引擎的定义和术语涌现,搜索技术日新月异,网页更新策略呈现百家争鸣的局面。 文章、Cho J 和 Ann irban D 等学者总结了两种更新策略:更新策略 n q 和个体更新策略 n 1 ' 1 。如果爬虫以相同的频率更新本地集合中的所有网页,无论网页的变化频率如何,称为统一更新策略;如果爬虫根据单个页面的变化频率对单个页面进行更新,并且网页的变化频率与更新频率之比等于任何单个网页,则称为个性化更新策略。在所有网页都同等重要的情况下,频繁访问变化过快的网页并不能显着提高搜索效率,资源应该集中在那些能够跟上变化速度的网页上,这正是与个别更新的想法相反。因此,统一更新策略普遍优于个体更新策略n31。

  但是,如果采用统一的更新策略,就会出现网页长期不更新、变化频繁等问题。后来有研究人员采取了不同的做法,在上述两种方案的基础上提出了一种折中的更新策略,采用一定的策略,根据源网页的变化频率,将网页分成若干类别进行更新,即分类更新策略 n4。 161,比如对变化快的网页和变化慢的网页设置不同的更新频率。当然,网页更新不仅要考虑为用户提供最新的页面检索,还要考虑网页的重要性等诸多因素。因此,研究人员从不同的角度提出了更多具有理论和实践意义的更新策略。提高本地网络图书馆的新鲜度和重要性。可以总结如下: 早期的研究是基于网络拓扑图等距中心 0 。 22]。后来,考虑的范围扩大了,形式多样。例如,考虑搜索引擎中的 3 个大型 网站 网页更新策略、Web 开发和参考、网页和超链接更改率、网站 复制更改率线索和 rate-of -更改个别页面等;通过这些研究开发...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线