java爬虫抓取动态网页( 本节主要讲述src的基本概念。网页get和动态页面的区别)

优采云 发布时间: 2021-09-13 18:05

  java爬虫抓取动态网页(

本节主要讲述src的基本概念。网页get和动态页面的区别)

  HTML 基础

  本节主要介绍HTML的基本概念。要抓取一个网页,首先要对网页有一个基本的了解。网页基础知识可以访问w3c学校学习

  1. 页面构成

  一个页面通常由css、js和html元素组成,其中css定义页面的样式,js负责渲染动态页面,html元素构成静态页面。常见的html元素包括文本元素、超链接(一般形式a href='#)'、图片(一般形式img src='img.png'); css一般在页面中以div class='demo'的形式来引用; js以javascript标签的形式引用。

  常用的查看页面元素的工具是Chrome浏览器的“查看元素”功能。一个典型的页面元素如下:

  

  可以看出页面元素是通过各种标签来组织的。

  2.静态和动态页面

  Internet 上的第一个网页是静态 html 页面。页面的元素比较简单,展示了一些文字、图片等信息,但是随着js、ajax等技术的发展,网页逐渐变得动态化了。动态页面可以提供更好的用户体验,但增加了抓取的难度。对于动态页面,Chrome下右键“查看网页源代码”和右键“查看元素”看到的页面结构是不同的。 ‘review element’可以获取动态加载的页面。爬取时需要注意静态页面和动态页面的区别。

  3. 获取和发布请求

  简单的说,一般访问一个网页是get请求,需要向服务器发送数据时使用post请求。在爬虫中使用get请求获取网页信息,向服务器发送数据时使用post请求(如登录和提交)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线