java爬虫抓取动态网页( 本节主要讲述src的基本概念。网页get和动态页面的区别)

优采云发布时间: 2021-09-13 18:05

　　java爬虫抓取动态网页(

本节主要讲述src的基本概念。网页get和动态页面的区别)

　　HTML 基础

　　本节主要介绍HTML的基本概念。要抓取一个网页，首先要对网页有一个基本的了解。网页基础知识可以访问w3c学校学习

　　1. 页面构成

　　一个页面通常由css、js和html元素组成，其中css定义页面的样式，js负责渲染动态页面，html元素构成静态页面。常见的html元素包括文本元素、超链接（一般形式a href='#）'、图片（一般形式img src='img.png'）； css一般在页面中以div class='demo'的形式来引用； js以javascript标签的形式引用。

　　常用的查看页面元素的工具是Chrome浏览器的“查看元素”功能。一个典型的页面元素如下：

　　可以看出页面元素是通过各种标签来组织的。

　　2.静态和动态页面

　　Internet 上的第一个网页是静态 html 页面。页面的元素比较简单，展示了一些文字、图片等信息，但是随着js、ajax等技术的发展，网页逐渐变得动态化了。动态页面可以提供更好的用户体验，但增加了抓取的难度。对于动态页面，Chrome下右键“查看网页源代码”和右键“查看元素”看到的页面结构是不同的。 ‘review element’可以获取动态加载的页面。爬取时需要注意静态页面和动态页面的区别。

　　3. 获取和发布请求

　　简单的说，一般访问一个网页是get请求，需要向服务器发送数据时使用post请求。在爬虫中使用get请求获取网页信息，向服务器发送数据时使用post请求（如登录和提交）。

0

2021-09-13

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取动态网页( 本节主要讲述src的基本概念。网页get和动态页面的区别)

0 个评论

发起人