seo教程:搜索引擎优化入门与进阶 pdf( 就是网站的概念与具体讲解网页的构成的区别?)
优采云 发布时间: 2021-09-04 10:18seo教程:搜索引擎优化入门与进阶 pdf(
就是网站的概念与具体讲解网页的构成的区别?)
网页的基本组成和抓取原理
网页是可以被浏览器等客户端解析的文件。与我们通常遇到的文件不同的是,网页是植根于互联网的。也就是说,我们通过浏览器浏览的大部分网页文件都不是本地的,它可能在世界上任何一台联网的电脑上。而且,通过互联网上的超链接,我们可以浏览世界任何一个角落的网络文件。这就是我们通常所说的网上冲浪,足不出户就可以融入整个世界。
爬虫抓取的是数据,其实就是网页上的内容。我们将在本节中讨论具体的爬取原理。我们先来看看网站的概念:
1.网站的概念
在详细说明网页的组成之前。我们需要先了解网站的概念。
网站 是向外界提供服务的多个网页的集合。主要分为静态网站和动态网站。
1.1 static网站
静态网站表示网站下的所有页面都由HTML网站组成。所谓静态并不是说网页是静态的,网页中还可以有*敏*感*词*、视频等信息。这里的静态是指无法与服务器交互。它只是被动地分析并显示服务器端响应返回的信息。
静态网站的优点:
容易被收录搜索到,有利于SEO优化。内容独立,不依赖数据库。
静态网站的缺点:
维护成本比较高,大部分内容需要手动更新。页面不能交互,用户体验差。
1.2 动态网站
动态网站可以提供比静态网站更多的交互体验。比如用户注册登录、实时推荐等功能。动态网站不仅收录静态HTML文件,还收录服务器端脚本,如Jsp、Asp等
动态网站的优点:
用户体验好,可以实现更个性化的设置。服务器可以与客户端有更多的交互,方便服务器对数据的管理和分析。
动态网站的缺点:
需要和数据库一起处理,访问速度大大降低。对搜索引擎不友好。
无论是静态网站中的网页还是动态网站中的网页,它们都有一些共同的基本内容。我们来看看网页的三个基本元素:
2.网页的三个基本元素:
在接下来的章节中,我们将具体介绍网页的三个基本元素,这里只是简单说明一些基本概念和用途。
2.1 HTML
HTML 是一种标记语言。标记语言不是编程语言,不能使用逻辑编程进行编程。它只是就一种文件呈现方式达成了一致。通过对不同标签所代表的不同含义达成一致,就可以在浏览器端呈现出丰富多彩的网页。它主要包括头部和主体两部分。 HTML主要负责页面的结构。
2.2 CSS
级联样式表,有时称为样式表。需要配合HTML使用,提供丰富的渲染效果。
2.3 Javascript
是一种脚本语言,广泛用于前端逻辑实现。很多自定义效果都可以通过javascript实现,是前端使用最广泛的编程语言。
综上所述,HTML、CSS 和 Javascript 共同构成了丰富的网页样式。三者缺一不可。没有HTML、CSS、Javascript就是被动水,毫无意义;没有 CSS,网页失去颜色和样式,最终使 HTML 保持不变;没有Javascript,我们看不到动态网页,只是一潭死水。
3.爬行爬行原理
爬虫爬取的数据其实就是网页上的内容。我们需要通过特定的工具来分析网页,比如Beautiful Soup。然后提取HTML中特定标签下的数据。然后,将数据持久化存储,以方便日后的数据分析。
简单来说,我们使用爬虫的最根本目的就是抓取网络上对我们有价值的信息和数据。因此,我们大部分的爬取工作都是过滤我们有用的信息,剔除无用的信息。这是爬虫的核心。
4.总结
通过本节,我们了解了网页的基本元素。在使用爬虫的过程中,我们需要随时随地分析网页的元素。因此,掌握网页的基本元素对我们很重要,有助于以后对网页进行分析。