从网页抓取数据(中文搜索引擎技术揭密:系统架构互联网发展的今天,你怎么想?)

优采云 发布时间: 2022-01-19 22:00

  从网页抓取数据(中文搜索引擎技术揭密:系统架构互联网发展的今天,你怎么想?)

  《中文搜索引擎技术揭秘:系统架构介绍》由会员上传分享,可在线免费阅读。更多相关内容可参见行业资讯——天天图书馆。

  1、中文搜索引擎技术启示:系统架构 当今互联网的发展,一方面离不开开放共享给人们带来的全新体验,另一方面也离不开数以亿计的它为各种网络节点提供了丰富的内容。在互联网普及之前,人们在寻找资料时首先想到的就是拥有大量书籍和资料的图书馆。你觉得今天怎么样?或许今天很多人会选择一种更方便、更快捷、更全面、更准确的方式——互联网。您可以坐在家里,只需点击几下鼠标,就能找到各种信息。在互联网普及之前,这只是一个梦想,但现在已经成为可能。帮助你在整个互联网上快速找到目标信息的,是日益重要的搜索引擎。互联网上已经有很多关于搜索引擎的技术资料,各种媒体关于搜索引擎经济的报道铺天盖地,所以这里不想多谈这些感受,只想重点说一下这个“在

  等2、文字搜索引擎技术揭秘”系列文章全部完结,再来说说搜索引擎对小编的深远影响。记得2000年左右,互联网上开始出现大量免费的个人主页空间。小编只是一个刚进入IT圈的孩子。看到这些空间都流口水了,立马申请了。经过一个多月的刻苦训练和三遍修改,我是人生第一。个人主页诞生了。但是看着每天的几次访问,心里不舒服,又想不出什么好办法来解决问题。突然有一天,我发现一篇介绍如何在搜索引擎中注册自己的文章网站 文章,于是小编就按照文章所说的在搜狐、网易等搜索引擎的相关分类*敏*感*词*册了自己的个人主页。直到今天,小编才确切知道当时流行的搜索引擎都是“目录搜索引擎”。这其实是小编第一次使用和了解搜索引擎。

  3、越来越多的个人主页感受到了搜索引擎的魔力。其实正是因为搜索引擎,小编的个人主页才被更多人所熟悉,以至于很多工作都是因为这个个人主页带来的机会。事实上,很多人可能对这些经历都有过切身感受,也有很多人因此而投身于互联网工作。这就像那句“世界这么精彩,你不看不知道”,小编在此再补充一句,“你怎么看,搜索引擎帮你!” 【特刊】互联网近10年发展迅速,互联网正在逐步深化人们的生活,改变着人们的生活。互联网经济也经历了起起落落,从缓慢起步到快速扩张,从泡沫破灭到逐步复苏;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎已成为人们最关注的焦点之一,也成为亿万富翁的摇篮。越来越多

  4、 公司都希望在搜索引擎金矿中找到金子,其中很多人会选择拥有自己的搜索引擎。国内知名搜索引擎公司百度总裁李彦宏表示:搜索引擎不是人人都能做的领域,进入门槛比较高。搜索引擎的门槛有多高?搜索引擎的门槛主要是技术门槛,包括快速网页数据采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言对技术的了解等等,这些都是搜索引擎的门槛。对于一个复杂的系统,技术的各个方面都很重要,但整个系统的架构设计也不容忽视,搜索引擎也不例外。搜索引擎技术和分类搜索引擎技术和分类搜索引擎技术是基于全文检索技术的。1960年代以来,国外开始研究全文检索技术。全文检查

  5、索引通常是指文本全文检索,包括信息存储、组织、性能、查询、访问等方面,其核心是文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术方面也逐渐发展并得到了广泛的应用,但搜索引擎与全文检索仍有区别。搜索引擎与传统意义上的全文检索的主要区别如下: 1、数据量 传统的全文检索系统是面向企业自身或与企业相关的数据。一般索引数据库的规模多为GB级。数据量只有几百万;但是互联网网页搜索需要处理数十亿的网页,搜索引擎的策略是使用服务器集群和分布式计算技术。2、内容相关的信息太多了,所以检查和整理很重要。谷歌等搜索引擎利用网络链接分析技术,根据互联网上的链接数量判断重要性;但全文搜索跨链的数据源

  6、关联度不高,不能作为判断重要性的依据。它只能根据内容的相关性进行排名。3、安全互联网搜索引擎数据源都是互联网上的公开信息,除了正文,其他信息不是很重要;但是企业全文检索的数据源都是企业内部信息,有等级、权限等限制,对查询方式要求比较严格,所以一般都会将其数据存储在一个安全集中的数据仓库中方式来保证数据的安全性和管理要求。4、针对互联网访问者的个性化和智能搜索引擎。由于数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集型智能计算技术难以应用。这也是当前搜索引擎技术的发展方向;而全文检索数据量小,检索需求明确,客户数量少,在智能和个性上可以走得更远。除了以上的不同,搜索引擎和全文检索还结合了互联网信息的特点,形成了三种不同的 检索需求明确,客户数量少,在智力和个性上可以走得更远。除了以上的不同,搜索引擎和全文检索还结合了互联网信息的特点,形成了三种不同的 检索需求明确,客户数量少,在智力和个性上可以走得更远。除了以上的不同,搜索引擎和全文检索还结合了互联网信息的特点,形成了三种不同的

  7、的类型:全文搜索搜索引擎:全文搜索引擎是名副其实的搜索引擎。国外的代表有Google()、yahoo()、AllTheWeb()等,国内比较有名的有Baidu()、中搜()。它们都是通过从互联网上提取每个网站(主要是网页文本)的信息,检索出符合用户查询条件的相关记录,然后按照一定的顺序将结果返回给用户而建立的数据库。,也是目前传统意义上的搜索引擎。目录搜索引擎:目录索引虽然具有搜索功能,但并不是严格意义上的真正搜索引擎。

  8、网站列表仅指向目录类别。用户只需依靠类别目录即可找到所需的信息,而无需进行关键词 查询。比较有名的国外目录索引搜索引擎有yahoo() OpenDirectoryProject(DMOZ)()、LookSmart()等。国内搜狐()、新浪()、网易()搜索也有这类功能。元搜索引擎:当一个元搜索引擎接受用户的查询请求时,它同时在多个其他引擎上进行搜索,并将结果返回给用户。一个著名的元搜索引擎是 Dogpile (http

  9、://)、Vivisimo()等。国内代表性的元搜索引擎有搜星()和优客()。在排列搜索结果方面,有的直接按照源引擎排列搜索结果,如Dogpile,有的按照自定义规则重新排列,如Vivisimo。新浪()、网易()、A9()等搜索引擎调用其他全文搜索引擎,或者根据搜索结果进行二次开发。搜索引擎系统架构 搜索引擎系统架构

  10、这里主要介绍全文检索搜索引擎的系统架构。下文所称搜索引擎,如无特殊说明,亦指全文检索搜索引擎。搜索引擎的实现原理可以看成是四个步骤:从互联网上抓取网页→建立索引库→在索引库中搜索→对搜索结果进行处理和排序。1、从互联网爬取网页使用网络蜘蛛程序,自动从互联网采集网页,自动访问互联网并将任意网页中的所有URL爬取到其他网页,重复这个过程,并爬取所有网页被采集到服务器中。2、建立索引数据库。

  11、一个关键词的相关性(或重要性),然后用这个相关信息建立一个网页索引数据库。3、在索引数据库中搜索当用户输入搜索关键词时,搜索请求被分解,搜索系统程序从网页索引中查找所有与关键词匹配的相关网页数据库。4、搜索结果的处理和排序所有与该关键词相关的网页都记录在索引数据库中。只需将相关信息与网页层级进行综合,形成相关度值,然后对相关信息进行排序。*敏*感*词*越高,排名越高。最后,页面生成系统将搜索结果的链接地址和页面内容摘要整理后返回给用户。下图是一个典型的搜索引擎系统架构图,搜索引擎的各个部分都会相互交织,相互依存。处理流程描述如下:“网络蜘蛛”从互联网上抓取网页,将网页发送到“网页数据库”,从网页“提取URL”,将URL发送到“URL数据库” ,《蜘蛛控》

  12、获取网页的URL,控制“网络蜘蛛”抓取其他网页,重复循环,直到所有网页都被抓取完。系统从“网页数据库”中获取文本信息,发送到“文本索引”模块进行索引,形成“索引数据库”。同时进行“链接信息提取”,将链接信息(包括锚文本、链接本身等信息)发送到“链接数据库”,为“网页评分”提供依据。“用户”向“查询服务器”提交查询请求,服务器在“索引数据库”中搜索相关网页,“网页评分” 结合查询请求和链接信息来评估搜索结果的相关性。查询服务器”按相关性排序,提取关键词的内容摘要,整理最终页面返回给“用户”。搜索引擎索引和搜索引擎索引和搜索对于网络蜘蛛技术和排序技术,请参考作者的其他文章[1][2],这里是谷歌搜索引擎

  13、例子主要介绍了搜索引擎的数据索引和搜索过程。数据的索引分为三个步骤:网页内容的提取、词的识别、索引库的建立。Internet 上的大部分信息都以 HTML 格式存在,而对于索引,只处理文本信息。因此,需要提取网页中的文本内容,过滤掉一些脚本标识和一些无用的广告信息,同时记录文本的布局格式信息[1]。单词识别是搜索引擎中非常关键的部分,网页中的单词是通过字典文件来识别的。对于西方信息,需要识别不同形式的单词,例如单复数、过去时、复合词、词根等。对于一些亚洲语言(中文、日文、韩文等),需要进行分词处理[3]。识别网页中的每个单词,并分配一个唯一的 wordID 编号以服务于数据索引中的索引模块。索引库的建立是数据索引结构中最复杂的部分。一般需要建立两种索引:文档索引

  1 4、 和 关键词 索引。文档索引为每个网页分配一个唯一的 docID 编号。根据docID索引,这个网页出现了多少个wordID,每个wordID出现的次数,位置,大写格式等,形成wordID对应的docID的数据列表;关键词@ > 索引实际上是文档索引的反向索引。根据wordID索引,该词出现在那些网页中(以wordID表示),在每个网页中出现的次数、位置、大写格式等,形成wordID对应的docID列表。关于索引数据的详细数据结构,感兴趣的朋友可以参考文献[4]。搜索过程是满足用户搜索请求的过程。通过用户' s输入搜索关键词,搜索服务器对应关键词字典,搜索关键词转化为wordID,然后在索引数据库中获取。docID列表,扫描docID列表,匹配wordID

  15、匹配,提取满足条件的网页,然后计算该网页与关键词的相关性,根据相关性的值返回前K个结果(不同的搜索引擎有每页不同的搜索结果)返回给用户。如果用户查看了第二页或页数,则再次进行搜索,将排序结果中K+1到2*Kth的网页组织返回给用户。处理流程如下图所示: 搜索引擎细化趋势 搜索引擎细化趋势 随着搜索引擎市场空间越来越大,搜索引擎的划分也越来越细。互联网没有国界,正如百度总裁李彦宏所说:搜索引擎市场是赢家通吃的市场。搜索引擎要想在搜索市场上占有一席之地,就必须有自己的特色。而且,亿万网民的搜索需求也不可能相同。不同类型的用户需要不同类型的搜索引擎。网络搜索只是搜索需求之一。特色搜索引擎也相继出现。从技能

  16、从技术上讲,各种搜索引擎都有相似的系统架构,区别在于搜索的数据源不同。除了上面提到的网络搜索引擎之外,还有一些典型的搜索引擎: 新闻搜索引擎 新闻搜索引擎是很多网民上网的主要目的,新闻搜索已经成为查看新闻的重要工具。实现新闻搜索引擎的过程相对简单。一般是扫描*敏*感*词*知名新闻网站,爬取新闻网页,建立自己的新闻数据库,然后提供搜索,但是新闻网页的抓取频率很高。有些需要每隔几分钟扫描一次。现在很多大型网络搜索引擎都提供了相应的新闻搜索功能,比如:谷歌新闻搜索()、中搜新闻搜索()、

  17、音乐搜索引擎 音乐搜索引擎出现互联网后,音乐得到了广泛的传播。对于喜欢音乐的网民来说,音乐搜索引擎已经成为最喜欢的工具。音乐搜索引擎需要对互联网上的*敏*感*词*音乐网站进行监控,捕捉其音乐数据的描述信息,形成自己的数据库。音乐下载和试听将在其原创音乐网站上进行。目前有:搜网()、百度mp3搜()、1234567搜()等。图片搜索引擎 图片搜索引擎 通过图片搜索引擎可以找到自己感兴趣的图片链接,各大搜索引擎也提供图片搜索功能。图像文件本身不能被搜索引擎索引,但是搜索引擎可以通过链接文本分析和图像注释来获取图像信息。目前:古格

  18、le Image Search()、VisionNext Search()、Baidu Image Search()等 商机搜索引擎 商机搜索引擎 电子商务一直是互联网上的热点,商机搜索对电子商务的发展也起到了巨大的推动作用。销售模式。商机搜索引擎通过抓取电子商务网站的商品信息等商业信息,为访问者提供统一的搜索平台。目前有:搜搜价格搜索引擎()、8848购物搜索()、阿里巴巴商机搜索()

  19、)等。其他特色搜索引擎包括专利搜索、软件搜索、ftp搜索、游戏搜索、法律搜索等,感兴趣的朋友可以参考文献[5]。更多参考: 更多参考: 关于搜索引擎系统架构的知识可以参考[4][6][7]。以下一些文档只列出了文章 的标题。可以在搜索引擎中输入标题进行搜索,直接获取下载链接。[1]中文搜索引擎技术解密:网络蜘蛛。作者:Winter,2004。 [2] 中文搜索引擎技术解密:排序技术。作者:Winter,2004。 [3] 中文搜索引擎技术解密:分词技术。作者:Winter, 2004. [4]TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine.Author:SergeyBr

  20、inandLawrencePage,199关键词9@>[5]搜索引擎目录。作者:搜索引擎指南网。. [6]WiseNutSearchEnginewhitepaper.Author:WisenutInc.2001.[7]AltaVistawhitepaper.Author:AltavistaInc.1999.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线