c#抓取网页数据(搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器开发蜘蛛程序)

优采云发布时间: 2022-03-15 08:08

　　搜索引擎用来抓取和访问页面的程序称为蜘蛛（spider）。 c#开发蜘蛛程序也称为机器人（bot）。当搜索引擎蜘蛛访问网站的页面时，它类似于普通用户使用浏览器。蜘蛛程序发送页面访问请求后，服务器返回HTML代码，蜘蛛程序将接收到的代码存储在原创页面数据库中。为了提高搜索引擎的爬取和爬取速度，都使用了多个爬虫分布爬取。

　　蜘蛛访问网站时，首先会访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些网页或内容，或者网站，则蜘蛛会遵循协议而不是c#开发的蜘蛛程序。

　　spider也是一个c#开发的spider程序，有自己的代理名。爬虫的痕迹可以在站长日志中看到，这也是为什么很多站长回答问题时总是说先检查网站日志的原因（作为一个好的SEO你必须能够查看网站日志无需任何软件，对代码含义非常熟悉）。

　　一个c#开发蜘蛛程序和搜索引擎蜘蛛的基本原理

　　搜索引擎蜘蛛是Spider，这是一个很形象的名字。互联网被比作蜘蛛网。那么Spider就是一个c#开发的蜘蛛程序，可以在网络上爬行。

　　网络蜘蛛通过网页的链接地址寻找网页，从网站某个页面（通常是首页）开始，读取网页的内容，寻找网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，如此循环下去，直到这个网站的所有网页都被爬取完毕。

　　如果把整个互联网看成一个网站，那么网络蜘蛛就可以利用这个原理爬取互联网上的所有网页。

　　搜索引擎蜘蛛的基本原理和工作流程

　　对于搜索引擎来说，几乎不可能爬取互联网上的所有网页。根据迄今为止公布的数据，最大的搜索引擎只抓取了网页总数的4%。十点左右。

　　其中一个原因是爬虫技术的瓶颈。 100 亿个网页的容量是 100×2000G 字节。就算能存起来，下载还是有问题（按一台机器每秒下载20K，需要340个单位，机器不停下载所有网页需要一年时间），同时，由于数据量大，在提供搜索时也会对效率产生影响。

　　因此，很多搜索引擎网络蜘蛛只抓取那些重要的网页，而在抓取时评估重要性的主要依据是某个网页的链接深度。

　　因为不可能爬取所有网页，所以有些网络蜘蛛为一些不太重要的网站设置了要访问的层数，例如如下图所示：

　　搜索引擎蜘蛛的基本原理和工作流程

　　A是起始页，属于第0层，B，C，D，E，F属于第1层，G，H属于第2层，I属于第3层，如果访问层网络蜘蛛设置的数字是2，网页我不会被访问，这也让搜索引擎可以搜索到一些网站网页，而其他部分则无法搜索到。

　　对于网站的设计者来说，扁平的网站设计有助于搜索引擎抓取更多页面。

　　网络蜘蛛在访问网站网页时，经常会遇到加密数据和网页权限问题。有些网页需要会员权限才能访问。

　　网站的站主当然可以让网络蜘蛛不按约定爬取，但是对于一些卖报告的网站来说，他们希望自己的报告可以被搜索引擎搜索到，但是不能搜索者查看是完全免费的，所以需要提供相应的用户名和密码给网络蜘蛛。

　　网络蜘蛛可以通过给定的权限抓取这些网页提供搜索，当搜索者点击查看网页时，搜索者也需要提供相应的权限验证。

　　二、点击链接

　　搜索引擎蜘蛛为了在网络上抓取尽可能多的页面，会跟随网页上的链接，从一个页面爬到下一页，就像蜘蛛在蜘蛛网上爬行一样，这是搜索引擎蜘蛛名字的由来。

　　整个互联网网站由相互连接的链接组成，这意味着搜索引擎蜘蛛最终将从任何一个页面开始抓取所有页面。

　　搜索引擎蜘蛛的基本原理和工作流程

　　当然网站而且页面链接结构太复杂，所以蜘蛛只能通过一定的方法爬取所有页面。据了解，最简单的爬取策略有以下三种：

　　1、最佳优先

　　最佳优先级搜索策略是根据一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关度，选择评价最好的一个或几个URL进行爬取。它只访问网页分析算法预测为“有用”的网页。

　　存在的一个问题是爬虫爬取路径上的很多相关网页可能会被忽略，因为最佳优先级策略是局部最优搜索算法，所以需要结合具体应用来提高最佳优先级, 为了跳出局部最优，据研究，这样的闭环调整可以将不相关网页的数量减少30%~90%。

　　2、深度优先

　　深度优先是指蜘蛛沿着找到的链接爬行，直到前面没有其他链接，然后返回第一页，沿着另一个链接爬行。

　　3、广度优先

　　广度优先是指当蜘蛛在一个页面上发现多个链接时，它不会一路跟随一个链接，而是爬取页面上的所有链接，然后进入页面的第二层并跟随第二层层。找到的链接爬到第三层页面。

　　理论上，无论是深度优先还是广度优先，只要给蜘蛛足够的时间，它就可以爬取整个互联网。

　　在实践中，蜘蛛的带宽资源和时间并不是无限的，它们不可能爬取所有页面。其实最大的搜索引擎只爬网收录互联网的一小部分，当然也不是说搜索引擎蜘蛛爬的越多越好，这一点

　　因此，为了尽可能多地捕获用户信息，通常将深度优先和广度优先混合，以便尽可能多地照顾到网站，同时也照顾到一些< @网站内页。

　　三、搜索引擎蜘蛛工作中的信息采集

　　信息采集模块包括“蜘蛛控制”和“网络蜘蛛”两部分。 “蜘蛛”这个称呼形象地描述了信息采集模块在网络数据形成的“万维网”上获取信息的功能。

　　一般来说，网络爬虫都是从*敏*感*词*网页开始，通过反复下载网页，从文档中寻找看不见的URL，达到访问其他网页和遍历网络的目的。

　　而它的工作策略一般可以分为累积爬取（cumulative crawling）和增量爬取（incremental crawling）。

　　1、累积爬取

　　累积爬取是指从某个时间点开始遍历，爬取系统允许存储和处理的所有网页。在理想的软硬件环境下，经过足够的运行时间，累积爬取策略可以保证爬取相当大的网页集合。

　　看来由于web数据的动态特性，集合中的网页被爬取的时间点不同，页面更新的也不同，所以累计爬取的网页集合实际上并不能与真实环境相比。网络数据保持一致。

　　2、增量爬取

　　与累积爬取不同，增量爬取是指在一定数量的网页集合的基础上，通过更新数据，选择现有集合中过时的网页，从而保证所有网页都被爬取。捕获的数据与真实的网络数据足够接近。

　　增量爬取的前提是系统已经爬取了足够多的网页，并且有关于这些页面何时被爬取的信息。在针对实际应用环境的网络爬虫设计中，通常会同时收录累积爬取和增量爬取两种策略。

　　累积爬取一般用于数据集的整体建立或*敏*感*词*更新，而增量爬取主要用于数据集的日常维护和即时更新。

　　确定了爬取策略后，如何充分利用网络带宽，合理确定网页数据更新的时间点，成为网络蜘蛛运行策略中的核心问题。

　　总的来说，在合理利用软硬件资源对网络数据进行实时抓取方面，已经形成了比较成熟的技术和实用的解决方案。更好地处理动态网络数据问题（如越来越多的Web2.0数据等），更好地根据网页质量修正爬取策略。

　　四、数据库

　　为了避免重复爬取和爬取URL，搜索引擎会建立一个数据库来记录未爬取的页面和已爬取的页面，那么数据库中的URL是怎么来的呢？

　　1、手动输入*敏*感*词*网站

　　简单来说就是我们建站后提交给百度、谷歌或者360的URL收录。

　　2、蜘蛛抓取页面

　　如果搜索引擎蜘蛛在爬取过程中发现了新的连接URL，但不在数据库中，则将其存入待访问的数据库中（网站观察期）。

　　蜘蛛根据重要性从要访问的数据库中提取URL，访问并爬取页面，然后从要访问的地址库中删除该URL，放入已访问的地址库中。 @>观察期间要尽可能定期更新网站.

　　3、站长提交网站

　　一般来说，提交网站只是将网站保存到要访问的数据库中。如果网站坚持不更新蜘蛛，就不会访问搜索引擎的页面收录都是蜘蛛自己跟随链接获取的。

　　因此，将其提交给搜索引擎对您来说不是很有用。应该根据你以后网站更新的程度来考虑。搜索引擎更喜欢沿着链接发现新页面。当然，如果你的SEO技术足够成熟，并且有这个能力，可以尝试一下，说不定会有意想不到的效果，但是对于一般站长来说，还是建议让蜘蛛爬取，爬到新的站点页面自然。

　　五、吸引蜘蛛

　　虽然理论上说蜘蛛可以爬取所有页面，但在实践中是不可能的，所以SEO人员想要收录更多的页面，不得不想办法引诱蜘蛛爬。

　　既然不能爬取所有的页面，那么就必须让它爬取重要的页面，因为重要的页面在索引中起着重要的作用，直接影响排名因素。哪些页面更重要？对此，我特意整理了以下几个我认为比较重要的页面，具有以下特点：

　　1、网站和页面权重

　　优质老网站被赋予高权重，而这个网站上的页面爬取深度更高，所以更多的内页会是收录。

　　2、页面更新

　　蜘蛛每次抓取时都会存储页面数据。如果第二次爬取时页面内容与第一个收录完全一样，说明页面没有更新，蜘蛛不需要频繁爬取和爬取。抢。

　　如果页面内容更新频繁，蜘蛛就会频繁爬取，那么页面上的新链接自然会被蜘蛛更快地跟踪和爬取，这也是为什么需要每天更新的原因< @k7@ >

　　3、导入链接

　　无论是外链还是同一个网站的内链，为了被蜘蛛爬取，必须有传入链接才能进入页面，否则蜘蛛不会知道存在的页面。这时候URL链接就起到了非常重要的作用，内部链接的重要性就发挥出来了。

　　另外，我个人觉得高质量的入站链接也往往会增加页面上的出站链接被抓取的深度。

　　这就是为什么大多数网站管理员或 SEO 都想要高质量的附属链接，因为蜘蛛网站从彼此之间爬到您网站的次数和深度更多。

0

2022-03-15

c#抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c#抓取网页数据(搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器开发蜘蛛程序)

0 个评论

发起人

AI时代内容工厂

c#抓取网页数据(搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器开发蜘蛛程序)

0 个评论

发起人

相关问题