excel抓取网页数据(爬虫的工作原理(一)_e操盘(图) )
优采云 发布时间: 2022-03-25 08:05excel抓取网页数据(爬虫的工作原理(一)_e操盘(图)
)
本质上,爬虫使用程序为我们在线获取有价值的数据。实际上,爬虫是用编程语言编写的程序。它的功能是从网络中获取有价值的数据。重要的是速度比手动获取数据要快。浏览器的工作原理
爬虫的工作原理其实就是把手动操作变成程序操作。
爬虫的工作步骤
(1)输入网址,发起请求,获取数据
(2)使用程序解析得到的数据
(3)从数据中提取想要的数据
(4)数据存储以供将来使用和分析
了解了爬虫的原理之后,我们一起来看看如何抓取数据?
import requests
from bs4 import BeautifulSoup
import openpyxl
header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}#请求头,模拟浏览器行为进行操作。越过服务器的反爬
response=requests.get('https://movie.douban.com/',headers=header)#根据请求方法用get方法进行发送请求,并获得响应值。headers=header用关键字传参
#
# print('响应状态码',response.status_code)
# print(response.request.headers)#查看请求头
# print(response.text)#查看响应文本
bs=BeautifulSoup(response.text,'html.parser')#html.parser 解析html。
# print(type(bs))
# title=bs.find('td',class_='title')#查找单个电影
# print(title.text)#输出结果
# title=bs.find_all('td',class_='title')
list=[['编号','电影名称','地址']]#声明列表中的头
title=bs.find('div',class_='billboard-bd')#查找标签
all_titel=title.find_all('tr')#查找div'标签 属性为 class='billboard-bd' 下的所有的tr
for i in all_titel:#遍历查找符合条件的电影
myid=i.find('td',class_='order')#查找电影id
mytitle=i.find('td',class_='title')#查找电影名称
url=i.find('a')['href']#查找地址连接
# print( myid.text,mytitle.text,url)
# title1=i.find('td',class_='title')
list.append([myid.text,mytitle.text,url])#将数据添加到列表中
# print(list)
#*****************存储到excel表格中
wb=openpyxl.Workbook()#创建一个工作薄
sheet=wb.active#创建一个工作表
sheet.title='电影'#为sheet页起名
for i in list:
sheet.append(i)#将列表中的内容存储到文件
wb.save('films.xlsx')#保存电影