动态网页抓取( 动态页面及伪静态页面分别是什么及区别在哪?)
优采云 发布时间: 2021-12-04 08:03动态网页抓取(
动态页面及伪静态页面分别是什么及区别在哪?)
什么是动态页面、静态页面和伪静态页面,它们的区别是什么?学习建网站从知道网页地址开始。老魏会详细讲解常见的网页格式,让新手和小白对网页地址格式有更深入的了解和认识,有助于网站的知识积累。
一、动态页面
我们经常看到浏览器地址栏中的一些网址很长,而且链接中还收录“?” 一般是动态链接,对应的页面是动态页面;
动态页面是用ASP、PHP、JSP、Perl或CGI等编程语言制作的。它们不存在于服务器中。服务器只有在用户访问请求时才返回一个完整的网页;
动态页面的内容存在于数据库中,根据不同的用户访问请求提供不同的网页内容。同时大大减少了网站维护的工作量;
网站,提供动态网页技术,实现用户注册、登录、用户管理、购买、在线调查、投票等多种交互功能。相反,静态网页无法提供这些功能。
动态页面通常以.php、asp 和jsp 等不同形式结束。
动态页面:简单的说就是将改变的内容放入数据库,相对不变的内容放入动态页面。当访问者请求访问时,读取并返回数据库中的内容,这样一个独立的动态页面就可以支持网站无限数量的文章内容发布,大大节省了网站的空间方便 网站 内容管理。
二、静态页面
存储在服务器云盘中的html文件在用户访问时从硬盘中读取并返回给用户。它通常以.htm.html 结尾,每个文件代表一个页面。
三、伪静态页面
它是由 wordpress 等程序生成的“静态页面”。它的表现形式是静态页面,但本质上是动态页面。
四、动态页面、静态页面和伪静态页面的区别
1、 动态页面的优缺点:易于维护和更新。比如调整一个产品的价格,站长只需要修改数据库,不需要修改每个单独的静态页面,节省了大量的人力和时间。
访问者很容易看到动态页面。但搜索引擎蜘蛛爬取并不容易,因为真正的网络内容存储在数据库中。这也使得动态网页难以被搜索引擎蜘蛛检索和抓取。蜘蛛程序会停在动态页面上,停止爬行。在相同的字段和内容下,静态页面的网站可以很容易地被索引和抓取。
搜索引擎不读取符号“?”后内容的原因:
动态页面的 URL 收录一个问号 (?) 和一个百分号 (%)。还有诸如 &、%、+ 和 $ 等符号。这样的网址被称为“环境变量”,这些环境变量很容易让蜘蛛程序陷入死循环。是蜘蛛程序无法理解符号“?”后的字符,URL 仍然不存在。为了避开那些蜘蛛陷阱,蜘蛛会不会不读?以下内容导致页面无法被索引和抓取。
2、 静态页面的优缺点:URL格式简单易懂。它是存在于云服务器硬盘中的文件,很容易被搜索引擎索引和抓取。
更新和维护并不容易。更改时必须手动更改每个文件。如果有数千个静态页面,工作量是难以想象的。
3、 伪静态页面的优缺点:URL格式和静态页面完全一样。访问者和蜘蛛程序看到的都是html地址,方便识别和爬取。它实际存在于服务器上,被搜索引擎收录搜索到后网址不会改变,用户访问时不会出现问题。而且,网站管理后台是动态程序,更容易改变。缺点:本质还是动态页面。用户每次访问,都要读取数据库内容返回给访问者,消耗服务器资源。
4、静态和伪静态比较
速度。在速度方面,静态页面比伪静态要好很多。静态页面是放置在服务器上的页面。当用户向服务器发出请求时,可以直接调用并返回给用户。动态页面,伪静态,其实就是动态页面,用技术手段读取数据库内容,动态页面?必须根据后面的参数读取数据库的次数。如果同时访问请求过多,会大大增加服务器负载,进而影响服务器采购成本,违背高性价比的目的。
容量。静态页面存在于服务器中,占用一定的空间。有多少内容就有多少独立的页面,相应地占用的空间也更多。这可以通过使用伪静态来避免。伪静态是动态 URL 到静态的转换,在服务器上实际上并不存在。
伪静态兼顾了静态页面和动态页面的优点,方便收录和搜索排名,后期可以自由修改内容。Wordpress 是最常见的伪静态程序。
现在很多程序本身就是动态页面。通过技术手段,可以生成真正的html静态页面,并存储在硬盘上供访问者阅读。以后修改也无所谓,重新生成所有静态页面即可。缺点也很明显:如果有几千个独立的静态页面,一代会占用大量的服务器资源,严重的会导致死机、假死、服务器崩溃等不良后果。