excel抓取网页数据(爬虫的工作原理(一)_e操盘(图) )

优采云发布时间: 2022-03-25 08:05

　　excel抓取网页数据(爬虫的工作原理(一)_e操盘(图)

)

　　本质上，爬虫使用程序为我们在线获取有价值的数据。实际上，爬虫是用编程语言编写的程序。它的功能是从网络中获取有价值的数据。重要的是速度比手动获取数据要快。浏览器的工作原理

　　爬虫的工作原理其实就是把手动操作变成程序操作。

　　爬虫的工作步骤

　　(1)输入网址，发起请求，获取数据

　　(2)使用程序解析得到的数据

　　(3)从数据中提取想要的数据

　　(4)数据存储以供将来使用和分析

　　了解了爬虫的原理之后，我们一起来看看如何抓取数据？

　　import requests

from bs4 import BeautifulSoup

import openpyxl

header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}#请求头，模拟浏览器行为进行操作。越过服务器的反爬

response=requests.get('https://movie.douban.com/',headers=header)#根据请求方法用get方法进行发送请求，并获得响应值。headers=header用关键字传参

#

# print('响应状态码',response.status_code)

# print(response.request.headers)#查看请求头

# print(response.text)#查看响应文本

bs=BeautifulSoup(response.text,'html.parser')#html.parser 解析html。

# print(type(bs))

# title=bs.find('td',class_='title')#查找单个电影

# print(title.text)#输出结果

# title=bs.find_all('td',class_='title')

list=[['编号','电影名称','地址']]#声明列表中的头

title=bs.find('div',class_='billboard-bd')#查找标签

all_titel=title.find_all('tr')#查找div'标签属性为 class='billboard-bd' 下的所有的tr

for i in all_titel:#遍历查找符合条件的电影

myid=i.find('td',class_='order')#查找电影id

mytitle=i.find('td',class_='title')#查找电影名称

url=i.find('a')['href']#查找地址连接

# print( myid.text,mytitle.text,url)

# title1=i.find('td',class_='title')

list.append([myid.text,mytitle.text,url])#将数据添加到列表中

# print(list)

#*****************存储到excel表格中

wb=openpyxl.Workbook()#创建一个工作薄

sheet=wb.active#创建一个工作表

sheet.title='电影'#为sheet页起名

for i in list:

sheet.append(i)#将列表中的内容存储到文件

wb.save('films.xlsx')#保存电影

0

2022-03-25

excel抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

excel抓取网页数据(爬虫的工作原理(一)_e操盘(图) )

0 个评论

发起人