汇总:Python数据采集与处理之网页爬取
优采云 发布时间: 2022-12-06 20:38汇总:Python数据采集与处理之网页爬取
Level 1:请求模块的基本使用
任务详情
本关我们将使用Python程序实现通过网页的url获取服务器返回的超文本文件并保存为txt文件的功能。
相关信息
获取网页并保存到本地的实现方法下面将通过文字进一步详细说明。
访问url的get()和post()方法
当我们要在浏览器中打开一个网页时,我们需要在浏览器的地址栏中输入该网页的url,例如在地址栏中输入百度搜索网站的首页url:
点击确定后,浏览器会向服务器发送网页请求;服务器收到请求后,会返回网页的超文本文件,浏览器收到服务器发送的网页超文本文件后,会进行解析,然后将超文本文件对应的网页显示在窗户。如图1所示。
Python提供了requests模块来处理网页的url。主要有两个方法:get()和post(),分别对应网页的Get请求和Post请求。get() 和 post() 方法具有以下参数:
url:指定请求URL;
params:字典类型,指定请求参数,GET请求时使用;
data:字典类型,指定表单信息,常用于发送POST请求;
headers:字典类型,指定请求头;
proxies:字典类型,指定使用的代理;
cookies:字典类型,指定Cookie;
auth: 元组类型 y
根据关键词采集数据,有
一个好处,就是不需要配置采集规则,可以直接输入要采集的关键词,确实方便快捷了很多!
优采云采集器 按关键词采集数据功能:
系统智能识别采集搜索结果链接的内容,使用方法非常简单,只需输入相应的关键词即可。
内容
1. 创建任务
在
采集优采云采集器控制台左侧的任务管理列表,单击关键词采集,弹出关键词采集配置页面。
2. 任务配置 处理配置(可选)。
那些不需要处理采集文章的人可以跳过此步骤!
一、入口
点击页面底部的【配置处理】按钮,进入数据处理配置页面;
二、数据处理配置
在采集之前,
可以为每个字段设置数据处理功能,采集时,已经设置好的数据处理会自动执行,记得完成设置后点击右上角保存;
4. 高级搜索命令(可选)。
关键词采集文章支持以下高级搜索命令
一、采集指定网站的数据
采集指定网站的文章指令:site:域名.com
采集指定网站下指定 关键词 文章 指令(请注意,关键词 和 site 指令之间有一个空格):关键词 site: 或 site: 关键词
例如采集网站具有 文章:p hp 关键词站点:
根据关键词采集数据完成功能设置,快速、简单、方便!!!
您还可以设置是否根据关键词采集数据自动发送导出、按关键词采集文章自动发送导出等功能。