自动抓取网页数据(建立索引数据库由分析索引系统程序对收集网页进行分析)

优采云发布时间: 2021-12-01 12:01

　　搜索引擎并不真正搜索互联网。他们搜索的实际上是一个预先组织好的网页索引数据库。

　　真正意义上的搜索引擎通常是指一种全文搜索引擎，它采集了互联网上数百到数十亿个网页，并将网页中的每个词（即关键词）编入索引，建立索引数据库。当用户搜索某个关键词时，页面内容中收录关键词的所有网页都会被搜索出来作为搜索结果。经过复杂的算法排序后，这些结果会按照与搜索的相关程度进行排序关键词。

　　如今，搜索引擎普遍采用超链接分析技术。除了分析索引网页本身的内容*敏*感*词*的文本。因此，有时，即使某个网页A中没有“devilSatan”这样的词，如果有另一个网页B指向这个网页A的链接是“devilSatan”，那么用户可以搜索“devilSatan”撒但”。找到页面A。此外，如果有更多的网页（C，D，E，F...）带有一个名为“魔鬼撒旦”的链接指向这个网页A，或者给出这个链接的源网页（B , C, D, E, F ......) 当用户搜索“恶魔撒旦”时，A页面的效果越好，排名就越高。

　　搜索引擎的原理可以看成三个步骤：从互联网上抓取网页→建立索引库→在索引库中搜索和排序。

　　从互联网上抓取网页

　　使用Spider系统程序，可以自动从互联网上采集网页，自动上网，沿着任意一个网页中的所有网址爬到其他网页，重复这个过程，把已经爬回来的网页全部采集回来。

　　索引数据库

　　分析索引系统程序对采集到的网页进行分析，提取相关网页信息（包括网页网址、编码类型、关键词、关键词在页面内容中收录的位置、生成时间、大小、其他网页的链接关系等），根据一定的相关性算法进行大量复杂的计算，每个网页与页面内容的相关性（或重要性）以及每个关键词获取超链接中的信息，然后利用这些关联信息构建网络索引数据库。

　　在索引数据库中搜索和排序

　　当用户输入关键词进行搜索时，搜索系统程序会从网页索引数据库中查找所有与关键词匹配的相关网页。因为这个关键词的所有相关网页的相关度已经计算好了，所以只需要根据已有的相关度值进行排序即可。相关性越高，排名越高。

　　最后，页面生成系统将搜索结果的链接地址和页面的内容摘要进行整理并返回给用户。

　　搜索引擎的蜘蛛一般需要定期重新访问所有网页（每个搜索引擎的周期不同，可能是几天、几周或几个月，也可能对不同重要性的网页有不同的更新频率），并更新网络索引数据库，反映网页内容的更新，添加新的网页信息，去除死链接，根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化就会反映在用户的查询结果中。

　　虽然只有一个互联网，但是各个搜索引擎的能力和偏好不同，所以抓取的网页也不同，排序算法也不同。大型搜索引擎的数据库存储着互联网上数亿到数十亿的网页索引，数据量达到数千GB甚至数万GB。但即使最大的搜索引擎建立了超过20亿个网页的索引数据库，也只能占到互联网上普通网页的不到30%。不同搜索引擎之间网页数据的重叠率一般在70%以下。我们使用不同搜索引擎的重要原因是它们可以搜索不同的内容。而且网上有很多内容，

　　您应该牢记这个概念：搜索引擎只能找到存储在其 Web 索引数据库中的内容。你也应该有这样的概念：如果搜索引擎的web索引数据库里应该有，而你没有找到，那是你能力的问题。学习搜索技巧可以大大提高你的搜索能力。

　　■ 全文搜索引擎

　　在搜索引擎分类部分，我们提到了全文搜索引擎从网站中提取信息来构建网页数据库的概念。搜索引擎的自动信息采集功能有两种类型。一种是定时搜索，即每隔一定时间（比如谷歌一般需要28天），搜索引擎主动发送“蜘蛛”程序在一定IP地址范围内搜索互联网网站，并且一旦发现新的网站，它会自动提取网站的信息和URL并将其添加到其数据库中。

　　另一种是提交对网站的搜索，即网站的拥有者主动向搜索引擎提交网址，在一定时间内会定向到你的网站时间（从2天到几个月不等）发出“蜘蛛”程序，扫描您的网站并将相关信息保存在数据库中，供用户查询。由于近年来搜索引擎索引规则变化很大，主动提交网址并不能保证你的网站可以进入搜索引擎数据库，所以最好的办法是获取更多的外部链接，让搜索引擎变得更好更多机会找到您并自动发送您的网站收录。

　　当用户搜索带有关键词的信息时，搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站，它会使用特殊的算法——通常根据网页上的关键词匹配度、出现位置/频率、链接质量等——计算每个网页的相关性和排名级别，然后根据相关性将这些网页链接依次返回给用户

　　■ 目录索引

　　与全文搜索引擎相比，目录索引有很多不同之处。

　　首先，搜索引擎是自动网站搜索，而目录索引则完全依赖人工操作。用户提交网站后，目录编辑会亲自浏览您的网站，然后根据一套自行确定的标准甚至主观印象来决定是否接受您的网站编辑。

　　其次，搜索引擎收录网站时，只要网站不违反相关规则，一般都会登录成功。目录索引对网站的要求要高很多，有时即使多次登录也不一定成功。尤其是像雅虎这样的超级索引，登录更是难上加难。（因为登录雅虎是最难的，而且是企业网络营销的必备，后面我们会在专门的空间介绍登录雅虎的技巧）。另外，我们在登录搜索引擎时，一般不需要考虑网站的分类，而在登录目录索引时，一定要把网站放在最合适的目录（Directory ）。

　　最后，搜索引擎中每个网站的相关信息都是自动从用户的网页中提取出来的，所以从用户的角度来说，我们有更多的自主权；并且目录索引要求你必须手动填写额外的网站Information，并且有各种限制。另外，如果工作人员认为你提交给网站的目录和信息不合适，他可以随时调整，当然不会提前和你商量。

　　目录索引，顾名思义就是将网站存放在对应的目录中，所以用户在查询信息时可以选择关键词进行搜索，也可以按类别进行搜索。如果按关键词搜索，返回的结果和搜索引擎一样，也是按照信息相关度网站进行排列，但人为因素较多。如果按层次目录搜索，网站在某个目录中的排名是由标题字母的顺序决定的（也有例外）。

　　目前，搜索引擎和目录索引有相互融合、相互渗透的趋势。原来，一些纯全文搜索引擎现在也提供目录搜索。例如，Google 借用 Open Directory 目录来提供分类查询。以及像 Yahoo! 这样的老品牌目录索引。与谷歌等搜索引擎合作，扩大搜索范围。默认搜索模式下，部分目录搜索引擎首先返回自己目录下匹配的网站，如国内搜狐、新浪、网易等；而其他人则默认为网络搜索，例如雅虎。

　　■ 全文搜索引擎

　　在搜索引擎分类部分，我们提到了全文搜索引擎从网站中提取信息来构建网页数据库的概念。搜索引擎的自动信息采集功能有两种类型。一种是定时搜索，即每隔一定时间（比如谷歌一般需要28天），搜索引擎主动发送“蜘蛛”程序在一定IP地址范围内搜索互联网网站，并且一旦发现新的网站，它会自动提取网站的信息和URL并将其添加到其数据库中。

　　另一种是提交对网站的搜索，即网站的拥有者主动向搜索引擎提交网址，在一定时间内会定向到你的网站时间（从2天到几个月不等）发出“蜘蛛”程序，扫描您的网站并将相关信息保存在数据库中，供用户查询。由于近年来搜索引擎索引规则变化很大，主动提交网址并不能保证你的网站可以进入搜索引擎数据库，所以最好的办法是获取更多的外部链接，让搜索引擎变得更好更多机会找到您并自动发送您的网站收录。

　　当用户搜索带有关键词的信息时，搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站，它会使用特殊的算法——通常根据网页上的关键词匹配度、出现位置/频率、链接质量等——计算每个网页的相关性和排名级别，然后根据相关性级别将这些网页链接依次返回给用户......

　　搜索引擎的数据库依赖于一种叫做“蜘蛛”或“爬虫”的软件，它通过互联网上的各种链接自动获取大量的网络信息内容，并按照预定的规则进行分析和组织。的。谷歌和百度是比较典型的全文搜索引擎系统。

0

2021-12-01

自动抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动抓取网页数据(建立索引数据库由分析索引系统程序对收集网页进行分析)

0 个评论

发起人

AI时代内容工厂

自动抓取网页数据(建立索引数据库由分析索引系统程序对收集网页进行分析)

0 个评论

发起人

相关问题