网页抓取解密(你可以坐在家里轻点几下鼠标到今天你怎么想？)

优采云发布时间: 2022-04-03 02:25

　　当今互联网的发展，一方面离不开其开放共享的特性给人们带来的全新体验，另一方面也离不开数以亿计的网络节点为其提供各种丰富的内容。在互联网普及之前，人们在寻找资料时首先想到的就是拥有大量书籍和资料的图书馆。你觉得今天怎么样？或许今天很多人会选择一种更方便、更快捷、更全面、更准确的方式——互联网。您可以坐在家里，只需点击几下鼠标，就能找到各种信息。在互联网普及之前，这只是一个梦想，但现在已经成为可能。

　　帮助你在整个互联网上快速找到目标信息的，是日益重要的搜索引擎。互联网上已经有很多关于搜索引擎的技术信息，各种关于搜索引擎经济的报道也被各大媒体报道过。所以，小编这里不想过多的谈论这些感受，而只在本期《中国搜索引擎技术揭秘》系列文章完结的时候，来聊一聊搜索的深远影响小编上的引擎。

　　记得2000年前后，大量免费的个人主页空间开始出现在互联网上，当时小编还只是一个刚进入IT圈的孩子。看着这些空位，流口水了，我立马申请了一个。经过一个多月的苦练和3次修改，我人生中的第一个个人主页诞生了。但是看着每天的几次访问，心里不舒服，一时想不出解决问题的好办法。突然有一天发现一篇文章文章介绍了如何在搜索引擎中注册自己的网站，于是小编就跟着文章在搜狐、网易等搜索引擎上说的。在分类目录*敏*感*词*册自己的个人主页。直到今天，小编并不确切知道当时流行的搜索引擎都是“目录搜索引擎”。这实际上是我第一次使用和了解搜索引擎。后来，我通过每天都在增加的个人主页，感受到了搜索引擎的魔力。

　　其实正是因为搜索引擎，小编的个人主页才被更多人所熟悉，以至于很多工作都是因为这个个人主页带来的机会。事实上，很多人可能对这些经历都有过切身感受，也有很多人因此而投身于互联网工作。这就像那句“世界很神奇，你不看不知道”，小编在这里又加了一句，“你怎么看，搜索引擎可以帮你！”

　　过去10年互联网发展迅速，互联网正在逐步深化人们的生活，改变人们的生活。互联网经济也经历了起起落落，从缓慢起步到快速扩张，从泡沫破灭到逐步复苏；从“网络广告”到“拇指经济”，从“网络游戏”到“搜索力经济”。目前，搜索引擎已成为人们最关注的焦点之一，也成为亿万富翁的摇篮。越来越多的企业都希望在搜索引擎金矿中挖出一篮子金子，其中不少企业会选择拥有自己的搜索引擎。国内知名搜索引擎公司百度总裁李彦宏表示：搜索引擎不是人人都能做的领域，

　　搜索引擎的门槛有多高？搜索引擎的门槛主要是技术门槛，包括快速网页数据采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言对技术的了解等等，这些都是搜索引擎的门槛。对于一个复杂的系统来说，各个方面的技术都很重要，但是整个系统的架构设计也不容忽视，搜索引擎也不例外。

　　搜索引擎技术与分类

　　搜索引擎的技术基础是全文检索技术。1960年代以来，国外开始研究全文检索技术。全文检索通常是指文本全文检索，包括信息存储、组织、性能、查询、访问等方面，其核心是文本信息的索引和检索，一般用于企事业单位。随着互联网信息的发展，搜索引擎在全文检索技术方面也逐渐发展并得到了广泛的应用，但搜索引擎与全文检索仍有区别。搜索引擎与传统意义上的全文搜索的主要区别如下：

　　1、数据量

　　传统的全文检索系统是面向企业自身的数据或与企业相关的数据。一般索引数据库的规模多在GB级别，数据量只有几百万；然而，互联网网页搜索需要处理数十亿的网页。搜索引擎的策略是使用服务器集群和分布式计算技术。

　　2、内容相关性

　　信息太多了，检查和整理尤为重要。谷歌等搜索引擎使用网络链接分析技术，根据互联网上的链接数量来判断网页的重要性；但是，全文检索的数据源中的相互链接程度不高。，不能作为判断重要性的依据，只能根据内容的相关性进行排名。

　　3、安全

　　互联网搜索引擎的数据来源都是互联网上的公开信息，除正文外，其他信息不是很重要；但是，企业全文检索的数据源都是企业内部信息，有级别、权限等限制，而且查询方式也有比较严格的要求，所以它的数据一般都存放在一个安全的数据仓库中集中方式，保证数据安全和管理要求。

　　4、个性化和智能

　　搜索引擎是针对互联网访问者的。由于数据量和客户数量的限制，自然语言处理技术、知识检索、知识挖掘等计算密集型智能计算技术难以应用。这也是目前搜索引擎技术努力的方向；另一方面，全文检索数据量小，检索需求明确，客户数量少，在智能化和个性化方面可以走得更远。

　　除了以上搜索引擎与全文检索的区别外，结合互联网信息的特点，形成了三种不同的类型：

　　全文搜索引擎：全文搜索引擎是名副其实的搜索引擎，国外有Google( )、yahoo( )、AllTheWeb( )等，国内有百度( )、中国搜索( )。它们都是通过从互联网上提取每个网站（主要是网页文本）的信息，检索出符合用户查询条件的相关记录，然后按照一定的顺序将结果返回给用户而建立的数据库。，也是目前传统意义上的搜索引擎。

　　目录搜索引擎：目录索引虽然有搜索功能，但并不是严格意义上的真正搜索引擎，只是一个按目录分类的网站链接列表。用户只需依靠类别目录即可找到所需的信息，而无需进行关键词查询。比较有名的国外目录索引搜索引擎有yahoo()Open Directory Project(DMOZ)()、LookSmart()等。中国的搜狐( )、新浪( )、网易( )搜索也有这种功能。

　　元搜索引擎：当一个元搜索引擎接受用户的查询请求时，同时在多个其他引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有Dogpile( )、Vivisimo( )等。国内具有代表性的元搜索引擎有搜星( )和优客搜索( )。在排列搜索结果方面，有的直接按照源引擎排列搜索结果，如Dogpile，有的按照自定义规则重新排列，如Vivisimo。

　　其他搜索引擎如新浪()、网易()、A9()等搜索引擎调用其他全文搜索引擎，或根据其搜索结果进行二次开发。

　　搜索引擎系统架构

　　这里主要介绍全文检索搜索引擎的系统架构。下文所称搜索引擎，如无特殊说明，亦指全文检索搜索引擎。搜索引擎的实现原理可以看成是四个步骤：从互联网上抓取网页→建立索引库→在索引库中搜索→对搜索结果进行处理和排序。

　　1、从互联网上抓取网页

　　使用一个网络爬虫程序，可以自动从互联网采集网页，自动访问互联网，并沿着任何网页中的所有URL爬到其他网页，重复这个过程，采集所有爬入服务器的网页。

　　2、创建索引数据库

　　索引系统程序对采集到的网页进行分析，提取相关网页信息（包括网页所在的URL、编码类型、页面内容中收录的关键词、关键词位置、生成时间, size, and other web pages) 链接关系等），根据一定的相关性算法进行大量复杂的计算，得到每个网页对页面内容中每一个关键词的相关性（或重要性）并在超链接中，然后利用这些相关信息建立一个网页索引数据库。

　　3、搜索索引数据库

　　当用户使用关键词进行搜索时，搜索请求被分解，搜索系统程序从网页索引数据库中查找与关键词匹配的所有相关网页。

　　4、搜索结果的处理和排序

　　关于这个关键词的所有相关信息都记录在索引数据库中。只需将相关信息和网页级别综合起来，形成一个相关值，然后进行排序。相关性越高，排名越高。最后，页面生成系统将搜索结果的链接地址和页面内容摘要整理后返回给用户。

　　下图是一个典型的搜索引擎系统架构图，搜索引擎的各个部分都会相互交织，相互依存。其处理流程描述如下：

　　screen.width-500)this.style.width=screen.width-500;">

　　“网络蜘蛛”从互联网抓取网页，将网页发送到“网页数据库”，从网页“提取URL”，将URL发送到“URL数据库”，“蜘蛛控制”获取URL网页，控制“网络蜘蛛”爬取其他页面，重复循环，直到所有页面都被爬完。

　　系统从“网页数据库”中获取文本信息，发送给“文本索引”模块，建立索引，形成“索引数据库”。同时进行“链接信息提取”，将链接信息（包括锚文本、链接本身等信息）发送到“链接数据库”，为“网页评分”提供依据。

　　“用户”向“查询服务器”提交查询请求，服务器在“索引数据库”中搜索相关网页，“网页评分”结合查询请求和链接信息来评估搜索的相关性结果，通过“查询服务器”按相关性排序，提取关键词的内容摘要，整理最终页面返回给“用户”。

　　搜索引擎的索引和搜索

　　网络蜘蛛技术和排序技术请参考作者的其他文章[1][2]。这里以谷歌搜索引擎为例，主要介绍搜索引擎的数据索引和搜索过程。

　　数据的索引分为三个步骤：网页内容的提取、词的识别、索引库的建立。

　　Internet 上的大部分信息都以 HTML 格式存在，而对于索引，只处理文本信息。因此，需要提取网页中的文本内容，过滤掉一些脚本标识和一些无用的广告信息，同时记录文本的布局格式信息[1]。单词识别是搜索引擎中非常关键的部分，网页中的单词是通过字典文件来识别的。对于西方信息，需要识别不同形式的词，如单复数、过去时、复合词、词根等，而对于一些亚洲语言（汉语、日语、韩语等），需要分词处理[3]。识别网页中的每个单词，并分配一个唯一的 wordID 编号以服务于数据索引中的索引模块。

　　索引库的建立是数据索引结构中最复杂的部分。一般需要建立两种索引：文档索引和关键词索引。文档索引为每个网页分配一个唯一的 docID 编号。根据docID索引，这个网页出现了多少个wordID，每个wordID出现的次数，位置，大写格式等，形成wordID对应的docID的数据列表；关键词@ > 索引实际上是文档索引的反向索引。根据 wordID 索引，该词出现在那些网页中（以 wordID 表示），每个网页上出现的次数、位置、大小写等，形成 wordID 对应的 docID 列表。

　　关于索引数据的详细数据结构，感兴趣的朋友可以参考文献[4]。

　　搜索过程是满足用户搜索请求的过程。通过用户输入搜索关键词，搜索服务器对应关键词词典，搜索关键词转化为wordID，然后在索引数据库中获取。docID列表，扫描docID列表匹配wordID，提取符合条件的网页，然后计算网页与关键词的相关性，根据相关性的值返回前K个结果（不同的搜索引擎每页不同数量的搜索结果）返回给用户。如果用户查看了第二页或页数，则再次进行搜索，将排序结果中K+1到2*Kth的网页组织返回给用户。

　　screen.width-500)this.style.width=screen.width-500;">

　　搜索引擎细化趋势

　　随着搜索引擎市场空间越来越大，搜索引擎的划分也越来越细。互联网没有国界，正如百度总裁李彦宏所说：搜索引擎市场是赢家通吃的市场。搜索引擎要想在搜索市场上占有一席之地，就必须有自己的特色。而且，亿万网民的搜索需求也不可能相同。不同类型的用户需要不同类型的搜索引擎。网络搜索只是搜索需求之一。特色搜索引擎也相继出现。

　　从技术上讲，各种搜索引擎都有相似的系统架构，区别在于搜索的数据源不同。除了上面提到的网络搜索引擎之外，还有一些典型的搜索引擎：

　　新闻搜索引擎

　　看新闻是很多网民上网的主要目的，新闻搜索已经成为看新闻的重要工具。实现新闻搜索引擎的过程相对简单。一般是扫描*敏*感*词*知名新闻网站，爬取新闻网页，建立自己的新闻数据库，然后提供搜索，但是新闻网页的抓取频率很高。有些需要每隔几分钟扫描一次。现在很多大型网络搜索引擎都提供了相应的新闻搜索功能，如：谷歌新闻搜索（）、中搜新闻搜索（）、百度新闻搜索（）等。

　　音乐搜索引擎

　　随着互联网的出现，音乐得到了广泛的传播。对于喜欢音乐的网友来说，音乐搜索引擎已经成为他们最喜欢的工具。音乐搜索引擎需要对互联网上的*敏*感*词*音乐网站进行监控，捕捉其音乐数据的描述信息，形成自己的数据库。音乐下载和试听将在其原创音乐网站上进行。目前有：Scratch Network()、百度mp3搜索()、1234567搜索()等。

　　图片搜索引擎

　　你可以通过图片搜索引擎找到你感兴趣的图片链接，各大搜索引擎也提供图片搜索功能。图像文件本身不能被搜索引擎索引，但搜索引擎可以通过链接文本分析和图像注释来获取图像信息。目前有：谷歌图片搜索（）、VisionNext 搜索（）、百度图片搜索（）等。

　　商业搜索引擎

　　电子商务一直是互联网上的热点，商机搜索也对电子商务的发展起到了巨大的推动作用。商机搜索将互联网经济与传统经营紧密结合，为传统企业提供了全新的销售模式。商机搜索引擎通过抓取电子商务网站的商品信息等商业信息，为访问者提供统一的搜索平台。目前有：搜搜价格搜索引擎（）、8848购物搜索（）、阿里巴巴商机搜索（）等。

　　其他特色搜索引擎包括专利搜索、软件搜索、ftp搜索、游戏搜索、法律搜索等，感兴趣的朋友可以参考文献[5]。

　　更多参考：

　　关于搜索引擎系统架构的知识可以参考[4][6][7]。以下一些文档只列出了文章的标题。可以在搜索引擎中输入标题进行搜索，直接获取下载链接。

　　[1]中文搜索引擎技术解密：网络蜘蛛。

　　[2]中文搜索引擎技术解密：排序技术。

　　[3]中文搜索引擎技术解密：分词技术。

　　[4] 大型超文本 Web 搜索引擎剖析。作者：谢尔盖·布林和劳伦斯·佩奇，1998.

　　[5] 搜索引擎目录。

　　[6] WiseNut 搜索引擎白皮书。作者：Wisenut Inc. 2001.

　　[7] AltaVista 白皮书。作者：Altavista Inc. 1999

0

2022-04-03

网页抓取解密

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取解密(你可以坐在家里轻点几下鼠标到今天你怎么想？)

0 个评论

发起人