c爬虫抓取网页数据(python网络爬虫入门(一)(网络蜘蛛、网络机器人))

优采云 发布时间: 2021-10-08 13:11

  c爬虫抓取网页数据(python网络爬虫入门(一)(网络蜘蛛、网络机器人))

  python 网络爬虫入门(一)

  网络爬虫的定义

  1、网络蜘蛛、网络机器人、抓取网络数据的程序。

  2、其实就是用Python(其他语言也可以在这里介绍python)程序来模仿人点击浏览器访问网站,而且模仿的越逼真越好。

  比较多种语言

  1、Python:丰富成熟的请求模块、解析模块、强大的Scrapy网络爬虫框架

  2、PHP:不太适合多线程和异步支持

  3、JAVA:代码量大,代码量大

  4、C/C++:虽然效率高,但是代码生成慢

  抓取数据的一般步骤

  1、确定需要爬取的URL地址

  2、请求模块向URL地址发送请求并得到网站的响应

  3、从响应内容中提取需要的数据并保存

  python标准库中的爬虫请求模块和方法

  urllib.request

  urllib.request.urlopen() 方法

  功能:向网站发送请求并获取响应对象

  参数:

  1.要爬取的网址

  2.timeout:设置等待时间,指定时间内无响应抛出异常

  第一个爬虫程序

  打开浏览器,输入百度网址(

  1 #导入请求模块(python标准库模块)

  2 importurllib.request3 4 #定义URL地址

  5 url ='#39;

  6 7 #向百度发送请求并获取响应对象

  8 res = urllib.request.urlopen(url)

  响应对象方法

  1 res =urllib.request.urlopen(url)2 3 #获取响应对象的内容(即网页源代码)

  4 #使用 decode() 转换为字符串

  5 res.read().decode('utf-8')6 7 #返回http响应码

  8 res.getcode()9 10 #返回实际数据的URL地址

  11 res.geturl()

  向百度发起请求,获取响应对象的内容

  1 #导入请求模块(python标准库模块)

  2 importurllib.request3 4 #定义URL地址

  5 url ='#39;

  6 7 #向百度发送请求并获取响应对象

  8 res =urllib.request.urlopen(url)9 #获取响应对象的内容(网页源码)

  10 html = res.read().decode('utf-8')11 打印(html)

  ------------恢复内容开始------------

  python 网络爬虫入门(一)

  网络爬虫的定义

  1、网络蜘蛛、网络机器人、抓取网络数据的程序。

  2、其实就是用Python(其他语言也可以在这里介绍python)程序来模仿人点击浏览器访问网站,而且模仿的越逼真越好。

  比较多种语言

  1、Python:丰富成熟的请求模块、解析模块、强大的Scrapy网络爬虫框架

  2、PHP:不太适合多线程和异步支持

  3、JAVA:代码量大,代码量大

  4、C/C++:虽然效率高,但是代码生成慢

  抓取数据的一般步骤

  1、确定需要爬取的URL地址

  2、请求模块向URL地址发送请求并得到网站的响应

  3、从响应内容中提取需要的数据并保存

  python标准库中的爬虫请求模块和方法

  urllib.request

  urllib.request.urlopen() 方法

  功能:向网站发送请求并获取响应对象

  参数:

  1.要爬取的网址

  2.timeout:设置等待时间,指定时间内无响应抛出异常

  第一个爬虫程序

  打开浏览器,输入百度网址(

  1 #导入请求模块(python标准库模块)

  2 importurllib.request3 4 #定义URL地址

  5 url ='#39;

  6 7 #向百度发送请求并获取响应对象

  8 res = urllib.request.urlopen(url)

  响应对象方法

  1 res =urllib.request.urlopen(url)2 3 #获取响应对象的内容(即网页源代码)

  4 #使用 decode() 转换为字符串

  5 res.read().decode('utf-8')6 7 #返回http响应码

  8 res.getcode()9 10 #返回实际数据的URL地址

  11 res.geturl()

  向百度发起请求,获取响应对象的内容

  1 #导入请求模块(python标准库模块)

  2 importurllib.request3 4 #定义URL地址

  5 url ='#39;

  6 7 #向百度发送请求并获取响应对象

  8 res =urllib.request.urlopen(url)9 #获取响应对象的内容(网页源码)

  10 html = res.read().decode('utf-8')11 打印(html)

  ------------恢复内容结束------------

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线