搜索引擎如何抓取网页(树立索引数据库由剖析索引体系程序对搜集回来的网页进行剖析)

　　搜索引擎并不是真正搜索 Internet，它实际上搜索的是预先组织的 Web 索引数据库。真正意义上的搜索引擎，一般是指采集互联网上千万到数十亿个网页，对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎. 当用户搜索某个关键词时，页面内容中收录关键词的所有网页都会被搜索出来作为搜索结果。经过一个凌乱的算法排序后，这些结果会按照与搜索的相关程度进行排序关键词。如今，搜索引擎已经广泛使用超链接分析技术。除了分析被索引网页本身的内容，它还分析了URL、AnchorText、甚至是指向该网页的所有链接的周围文本。所以，有时候，即使某个网页A中没有“devilSatan”这样的词，如果有另一个网页B指向这个网页A的链接是“devilSatan”，那么用户搜索时也能找到“恶魔撒旦”页面A。此外，如果有更多的网页（C、D、E、F...）指向这个网页A，并带有一个名为“恶魔撒旦”的链接，可能是这个链接的源网页(B, C, D, E, F) ......) 越好，当用户搜索“恶魔撒旦”时，页面A会被认为更相关，排名会更高。搜索引擎的原理可以看成三个步骤：从互联网上抓取网页→建立索引库→在索引库中搜索和排序。从互联网上爬取网页使用Spider系统程序，可以主动从互联网上采集网页，主动访问互联网，沿着任意一个网页中的所有网址爬到其他网页，重复这个过程，将所有被爬回的网页采集回来. .

　　建立索引数据库，通过分析索引系统程序对采集到的网页进行分析，提取相关网页信息（包括网页位置URL、编码类型、页面内容关键词、关键词方向、生成时间、大小、链接与其他网页等），根据一定的相关性算法进行大量杂乱的计算，获取每个网页在页面内容和超链接中的每个关键词的相关性（或重要性），以及然后利用这些相关信息建立网络索引数据库。在索引数据库中搜索和排序当用户输入关键词进行搜索时，搜索系统程序会从网页索引数据库中找到与关键词匹配的所有相关网页。由于关键词的所有相关网页的相关性已经计算出来了，只需要按照现有的相关值进行排序即可。相关性越高，排名越高。最后，页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的蜘蛛通常从头开始定期访问所有网页（每个搜索引擎的周期不同，可能是几天、几周或几个月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，反映网页内容的更新状态，添加新的网页信息，去除死链接，根据网页内容和链接连接的变化从头开始排序。通过这种方式，网页的具体内容和变化状态会反映在用户查询的结果中。虽然网上只需要一个，但是搜索引擎的能力和喜好不同，所以抓取的网页不同，排序算法也不同。

　　大型搜索引擎的数据库在互联网上存储着数亿到数十亿的网页索引，数据量达到几千GB甚至几万GB。但即使最大的搜索引擎建立了超过20亿个网页的索引数据库，也只能占到互联网上一般网页的不到30%，而且不同搜索引擎之间的网页数据堆积率一般低于 70%。我们使用不同搜索引擎的重要原因是它们可以分别找到不同的内容。互联网上有更多的内容，搜索引擎无法索引，我们也无法通过搜索引擎找到它们。您应该牢记这个概念：搜索引擎只能搜索存储在其 Web 索引数据库中的内容。你也应该有这个概念：如果搜索引擎的web索引数据库里应该有，你没有搜出来，那是你能力的问题。学习搜索技巧可以大大提高你的搜索能力。■全文搜索引擎在搜索引擎分类部分，我们提到全文搜索引擎从网站中提取信息，建立网络数据库的概念。搜索引擎的主动信息采集功能有两种类型。一种是定时搜索，即每次（比如谷歌一般是28天），搜索引擎主动发送“蜘蛛”程序在一定IP地址范围内搜索互联网网站，一旦发现新的网站，会主动提取网站的信息和URL参与到自己的数据库中。另一种是提交网站搜索，即网站的拥有者主动向搜索引擎提交网址，在一定时间内（不等）定向到你的网站从2天到几个月）发送“蜘蛛”程序，扫描您的网站并将相关信息保存在数据库中以供用户查询。

　　由于这几年搜索引擎索引规则变化很大，主动提交网址并不能保证你的网站可以进入搜索引擎数据库，所以现在最好的办法就是获取更多的外部链接，让搜索引擎更好的找到你，主动输入你的网站。当用户搜索带有关键词的信息时，搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站，则选择其他算法——一般根据网页关键词匹配度、呈现位置/频率、链接质量等——计算相关性和排名等级每个网页，然后根据相关程度将这些网页链接回给用户。■ 目录索引与全文搜索引擎的比较目录索引有很多不同之处。首先，搜索引擎属于主动网站搜索，目录索引完全依赖技术操作。用户提交网站后，目录编辑会亲自阅读您的网站，然后根据一套自行确定的标准甚至片面决定是否接受您的网站编辑器的图像。其次，当搜索引擎输入网站时，只要网站不违反相关规则，通常会登录成功。目录索引对网站的要求要高很多，有时即使重复登录也不一定能成功。特别是对于像 Yahoo! 这样的超级索引，登录更是难上加难。（因为登录雅虎是最难的，而且是企业网络营销的必备，后面我们会在专门的空间介绍登录雅虎的技巧）。

　　另外，我们在登录搜索引擎的时候，一般不用考虑网站的分类，而在登录目录索引时，要把网站放在最合适的位置目录（目录）。最后，搜索引擎中每个网站的相关信息都是主动从用户的网页中提取的，所以从用户的角度来说，我们有更多的自主权；而目录索引需要必要的技巧来填写其他网站Information，还有各种限制。另外，如果运营商认为你提交的网站目录和网站信息不合适，他可以随时调整，当然不会提前和你商量。目录索引，王文胜义是存网站在对应的目录中，用户可以选择关键词进行信息搜索，或者分类搜索。如果用关键词搜索，返回的结果和搜索引擎一样，按照信息相关程度放在网站，但人为因素较多。如果按层次目录搜索，网站在某个目录中的排名是由标题字母的顺序决定的（也有例外）。现在，搜索引擎和目录索引有相互融合的趋势。原本一些简单的全文搜索引擎现在也提供目录搜索。例如，Google 借用 Open Directory 目录来提供分类搜索。旧的目录索引，如 Yahoo! 通过与谷歌等搜索引擎合作，扩大了搜索规模。默认搜索模式下，部分目录搜索引擎主要返回自己目录下匹配的网站，如国内搜狐、新浪、网易等；而其他人则默认为网络搜索，例如雅虎。

　　■全文搜索引擎在搜索引擎分类部分，我们提到全文搜索引擎从网站中提取信息，建立网络数据库的概念。搜索引擎的主动信息采集功能有两种类型。一种是定时搜索，即每次（比如谷歌一般是28天），搜索引擎主动发送“蜘蛛”程序在一定IP地址范围内搜索互联网网站，并且一旦发现新的网站，它会主动提取网站的信息和URL参与到自己的数据库中。另一种是提交网站搜索，即网站的拥有者主动向搜索引擎提交网址，会定向到你的网站在一定时间内（从2天到几个月不等）发出“蜘蛛”程序，扫描您的网站并将相关信息保存在数据库中，供用户查询。由于这几年搜索引擎索引规则变化很大，主动提交网址并不能保证你的网站可以进入搜索引擎数据库，所以现在最好的办法就是获取更多的外部链接，让搜索引擎更好的找到你，主动输入你的网站。当用户搜索带有关键词的信息时，搜索引擎会在数据库中进行搜索。如果找到符合用户要求的网站，则选择其他算法——一般根据网页关键词的匹配程度、呈现位置/频率、链接质量等。

　　谷歌和百度都是典型的全文搜索引擎系统。了解搜索引擎的运行原理，对我们日常的搜索应用以及网站的投稿和推广都有很大的帮助。全文搜索引擎在搜索引擎分类部分，我们提到全文搜索引擎从网站中提取信息，建立网络数据库的概念。搜索引擎的主动信息采集功能有两种类型。一种是定时搜索，即每一次（比如谷歌一般是28天），搜索引擎主动发送“蜘蛛”程序去搜索某个IP地址范围内的互联网站，并且一次发现新的网站，会主动提取网站的信息和URL 参与自己的数据库。另一种是提交网站搜索，即网站的拥有者主动向搜索引擎提交网址，在一定时间内（不等）定向到你的网站从2天到几个月）发送“蜘蛛”程序，扫描您的网站并将相关信息保存在数据库中以供用户查询。由于这几年搜索引擎索引规则变化很大，主动提交网址并不能保证你的网站可以进入搜索引擎数据库，所以现在最好的办法就是获取更多的外部链接，让搜索引擎更好的找到你，主动输入你的网站。当用户搜索带有关键词的信息时，搜索引擎会在数据库中进行搜索。

　　与全文搜索引擎相比，目录索引有很多不同之处。首先，搜索引擎属于主动网站搜索，目录索引完全依赖技术操作。用户提交网站后，目录编辑会亲自阅读您的网站，然后根据一套自行确定的标准甚至片面决定是否接受您的网站编辑器的图像。其次，当搜索引擎输入网站时，只要网站不违反相关规则，通常会登录成功。目录索引对网站的要求要高很多，有时即使重复登录也不一定能成功。尤其是像雅虎这样的超级索引，登录更是难上加难。（因为登录雅虎是最难的，也是企业网络营销的必备，后面会在专门的空间介绍登录雅虎的技巧）另外，在登录搜索引擎的时候，我们一般不用考虑网站分类问题，登录目录索引时需要将网站放在最合适的目录（Directory）中。最后，搜索引擎中每个网站的相关信息都是主动从用户的网页中提取的，所以从用户的角度来说，我们有更多的自主权；而目录索引需要必要的技巧来填写其他网站Information，还有各种限制。更有什者，如果运营商认为你提交了网站目录和< @网站信息不合适，他可以随时调整，当然他不会提前跟你商量。目录索引，王文胜义是将网站存放在对应的目录中，用户可以选择关键词进行信息搜索，也可以按类别进行搜索。

　　如果用关键词搜索，返回的结果和搜索引擎一样，按照信息相关程度放在网站，但人为因素较多。如果按层次目录搜索，网站在某个目录中的排名是由标题字母的顺序决定的（也有例外）。现在，搜索引擎和目录索引有相互融合的趋势。原本一些简单的全文搜索引擎现在也提供目录搜索。例如，Google 借用 Open Directory 目录来提供分类搜索。旧的目录索引，如 Yahoo! 通过与谷歌等搜索引擎合作，扩大了搜索规模。在默认搜索模式下，一些目录搜索引擎主要返回自己目录中匹配的网站，比如国内的搜狐、新浪、网易等；而其他人则默认为网络搜索，例如雅虎。作者：whwyw 发布时间：2006-06-13 10:44:20 第二部分：搜索引擎原理搜索引擎并不是真正搜索互联网，它实际上搜索的是一个预先组织好的网络索引数据库。搜索引擎无法真正理解网页上的内容，只能机械地匹配网页上的文字。真正意义上的搜索引擎一般指的是全文搜索引擎，它采集互联网上千万到数十亿的网页，并对网页中的每一个文本（即关键词）进行索引，建立索引数据库. 当用户搜索某个关键词时，所有收录关键词的网页

　　经过一个凌乱的算法排序后，这些结果会按照与搜索的相关程度进行排序关键词。如今，搜索引擎已经广泛使用超链接分析技巧。除了分析被索引网页的文本*敏*感*词*的文本。所以，有时候，即使某个网页A中没有“devilSatan”这样的词，如果有另一个网页B指向这个网页A的链接是“devilSatan”，那么用户搜索时也能找到“恶魔撒旦”页面A。此外，如果有更多的网页（C、D、E、F...）指向这个网页A，并带有一个名为“恶魔撒旦”的链接，可能是这个链接的源网页(B, C, D, E, F) ......) 更好，当用户搜索“恶魔撒旦”时，页面A会被认为更相关，排名会更高。搜索引擎的原理可以看成三个步骤：从互联网上抓取网页→建立索引库→在索引库中搜索和排序。从互联网抓取网页使用Spider系统程序，可以主动从互联网上抓取网页，主动访问互联网，并沿着任意网页中的所有URL抓取到其他网页，重复该过程，并采集所有网页那些被爬回来的。. 建立索引数据库，通过分析索引系统程序对采集到的网页进行分析，提取相关网页信息（包括网页位置URL、编码类型、页面内容中收录的一切关键词、关键词位置、

　　在索引数据库中搜索和排序当用户输入关键词进行搜索时，搜索系统程序会从网页索引数据库中找到与关键词匹配的所有相关网页。由于已经计算了该关键词的所有相关网页的相关性，因此只需根据现有相关性值对其进行排序即可。相关性越高，排名越高。最后，页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织回给用户。搜索引擎的蜘蛛通常从头开始定期访问所有网页（每个搜索引擎的周期不同，可能是几天、几周或几个月，也可能对不同重要性的网页有不同的更新频率），更新网络索引数据库，为了反映网页文字的更新状态，添加新的网页信息，去除死链接，根据网页文字和链接连接的变化从头开始排序。这样，网页的具体文字变化状态就会反映在用户查询的结果中。虽然网上只需要一个，但是搜索引擎的能力和喜好不同，所以抓取的网页不同，排序算法也不同。大型搜索引擎的数据库存储着互联网上数千万到数十亿的网页索引，数据量达到数千千兆甚至数万千兆。但即使最大的搜索引擎建立了超过 20 亿个网页的索引数据库，它只能占互联网上一般网页的不到30%，不同搜索引擎之间的网页数据堆叠率一般在70%以下。我们使用不同搜索引擎的重要原因是它们可以分别找到不同的网页。

　　互联网上还有很多网页无法被搜索引擎收录，我们也无法通过搜索引擎找到它们。你应该有这个概念：搜索引擎只能搜索存储在其网络索引数据库中的网页文本信息。你也应该有这个概念：如果搜索引擎的web索引数据库里应该有，你没有搜出来，那是你能力的问题。学习搜索技巧可以大大提高你的搜索能力。第三部分：常用中英文搜索引擎指南。中文搜索引擎常用的中文网页约有9000万个，每两周更新一次。提供网页快照、网页预览/预览所有网页、相关搜索词、拼写错误提示、新闻搜索、Flash搜索、信息快讯搜索、百度搜索栏、搜索帮助中心。百度搜索技巧 Google Chinese/intl/zh-CN/ 约7000万中文网页，每月更新一次，部分网页每天更新，BasisTechnology提供的中文处理技巧，搜索相关度高，高端搜索语法丰富. 提供谷歌工具栏、网页快照、图片搜索、新闻组搜索。谷歌搜索辅助 Openfind Chinese/cn.web.php?u=cn 中文网页数量接近百度或谷歌，更新稍慢。优惠按页面大小或日期排序。Openfind查询技巧北大天网/约6000万个网页，更新稍慢，搜索相关性稍低。BasisTechnology提供的中文处理技巧，搜索相关度高，高端搜索语法丰富。提供谷歌工具栏、网页快照、图片搜索、新闻组搜索。谷歌搜索辅助 Openfind Chinese/cn.web.php?u=cn 中文网页数量接近百度或谷歌，更新稍慢。优惠按页面大小或日期排序。Openfind查询技巧北大天网/约6000万个网页，更新稍慢，搜索相关性稍低。BasisTechnology提供的中文处理技巧，搜索相关度高，高端搜索语法丰富。提供谷歌工具栏、网页快照、图片搜索、新闻组搜索。谷歌搜索辅助 Openfind Chinese/cn.web.php?u=cn 中文网页数量接近百度或谷歌，更新稍慢。优惠按页面大小或日期排序。Openfind查询技巧北大天网/约6000万个网页，更新稍慢，搜索相关性稍低。并且更新稍慢。优惠按页面大小或日期排序。Openfind查询技巧北大天网/约6000万个网页，更新稍慢，搜索相关性稍低。并且更新稍慢。优惠按页面大小或日期排序。Openfind查询技巧北大天网/约6000万个网页，更新稍慢，搜索相关性稍低。

　　提供天网荞麦面和历史网页。推荐使用强大的 ftp 搜索。天网使用辅助 Fast/AllthewebInktomi/MSNAltavista 网络指南针 202.112.0.83:8080 Alltheweb 已经记录了大约 6000 万个中文网页，而 Inktomi 和 Altavita 也大约有几十个百万，但由于没有经过中文特殊处理，部分内容可以用简体中文关键词进行搜索，但是当查询较长或与关键词结合时，搜索效果很差。其他的，比如Wisenut、Gigablast等，也可以搜索一点中文，但是因为没有对中文进行特殊处理，同样没有搜索价值。Web Compass 部分索引了 500 万个网页，在数据量和相关性上还有限制，现在没有搜索价值。常用英文搜索引擎Google 24亿网页（约占非全文索引的1/4），优秀的用户界面，搜索新闻组、图片、新闻等，找到相关度高的知名人士。Alltheweb(Fast)21亿网页，高端搜索能力强，新闻、图片、MP3、Video、ftp，使用ODP对搜索结果进行简单分类。Altavista拥有约7亿个网页，图片、音频、视频、新闻搜索、高端语法强、prisma辅助检索。

　　（部分网友需要通过p-roxy访问，如果没有p-roxy可以用altavista搜索qbseach。） Inktomi 20亿网页（怀疑很多非全文索引），高技能设置和参数调整，支持的门户搜索数据库和排序很多不同，你可以去Hotbot使用Inktomi的高端搜索。Northernlight大约有7亿个网页+7,100个出版物数据，您需要选择“仅万维网”进行搜索。速度稍慢，杂志数据有共同搜索价值，结果可以简单主动分类，页数不限，支持通配符。Wisenut 拥有大约 14 亿个网页。Web 索引数据库太旧。它为类似的简单主动分类和相关搜索词提供 WiseGuide，和 Sneak-a-Peek 用于预览搜索结果。Openfind 35亿个网页（怀疑很多没有全文索引），旧网页死链接很多，支持按页面大小或日期排序。Teoma大约有3亿个网页，速度稍慢，支持Refine，类似于主动分类；并一起提供专业链接目录的资源。Gigablast 1. 5 亿网页，提供网页快照。

　　注1：如果搜索结果网页中有涉及政治敏感内容的文字，网友可能会看到服务器被重置的信息，搜索引擎短时间内无法使用。不需要很严重，等几分钟或者换个IP就行了。用过的。注2：以上搜索引擎高端搜索语法的具体应用，请到各搜索引擎的帮助中学习，或到这里参考。现在，只有 9 个英文搜索引擎拥有自己的网络索引数据库。其他的如Yahoo、AOL、LYCOS、MSN、Looksmart等，虽然是命名搜索引擎，但没有自己的网页索引数据库，但都使用上述搜索引擎的网页索引数据库。另外，门户网站网站的搜索引擎默默认为在分类目录中搜索很麻烦，无法提供专业搜索引擎一样的丰富功能和一致的丰富搜索语法。因此，在搜索速度、相关性、数量、易用性等方面，往往与专业搜索引擎相去甚远，缺乏应用价值，就不一一介绍了。但是，以下三个搜索引擎虽然没有自己的网络索引数据库，但各有特点和应用价值。值得一提的是搜索引擎9238：Askjeeves拥有超过700万的超大题库，支持自然语言提问和搜索，适合搜索常识性问题的答案。Vivisimo 元搜索引擎对搜索结果具有最佳的主动分类技能。

　　Faganfind 除了一般的网络搜索之外，我们经常会遇到各种特殊的搜索需求。Faganfind 就像一个书签。针对数十种特殊的搜索需求，精选了多个优秀的搜索工具。可以点击子类进入选择使用，也可以用它来查找默认默认的东西。很好的参考：/bbs/PrintPost.asp?ThreadID=204

AI时代内容工厂

搜索引擎如何抓取网页(树立索引数据库由剖析索引体系程序对搜集回来的网页进行剖析)

0 个评论

发起人