汇总:Python数据采集与处理之网页爬取

优采云 发布时间: 2022-12-06 20:38

  汇总:Python数据采集与处理之网页爬取

  Level 1:请求模块的基本使用

  任务详情

  本关我们将使用Python程序实现通过网页的url获取服务器返回的超文本文件并保存为txt文件的功能。

  相关信息

  获取网页并保存到本地的实现方法下面将通过文字进一步详细说明。

  

  访问url的get()和post()方法

  当我们要在浏览器中打开一个网页时,我们需要在浏览器的地址栏中输入该网页的url,例如在地址栏中输入百度搜索网站的首页url:

  点击确定后,浏览器会向服务器发送网页请求;服务器收到请求后,会返回网页的超文本文件,浏览器收到服务器发送的网页超文本文件后,会进行解析,然后将超文本文件对应的网页显示在窗户。如图1所示。

  Python提供了requests模块来处理网页的url。主要有两个方法:get()和post(),分别对应网页的Get请求和Post请求。get() 和 post() 方法具有以下参数:

  url:指定请求URL;

  params:字典类型,指定请求参数,GET请求时使用;

  

  data:字典类型,指定表单信息,常用于发送POST请求;

  headers:字典类型,指定请求头;

  proxies:字典类型,指定使用的代理;

  cookies:字典类型,指定Cookie;

  auth: 元组类型 y

  汇总:根据关键词采集文章(按关键词采集数据)

  根据关键词采集数据,有

  一个好处,就是不需要配置采集规则,可以直接输入要采集的关键词,确实方便快捷了很多!

  优采云采集器 按关键词采集数据功能:

  系统智能识别采集搜索结果链接的内容,使用方法非常简单,只需输入相应的关键词即可。

  内容

  1. 创建任务

  在

  采集优采云采集器控制台左侧的任务管理列表,单击关键词采集,弹出关键词采集配置页面。

  

  2. 任务配置 处理配置(可选)。

  那些不需要处理采集文章的人可以跳过此步骤!

  一、入口

  点击页面底部的【配置处理】按钮,进入数据处理配置页面;

  二、数据处理配置

  在采集之前,

  可以为每个字段设置数据处理功能,采集时,已经设置好的数据处理会自动执行,记得完成设置后点击右上角保存;

  

  4. 高级搜索命令(可选)。

  关键词采集文章支持以下高级搜索命令

  一、采集指定网站的数据

  采集指定网站的文章指令:site:域名.com

  采集指定网站下指定 关键词 文章 指令(请注意,关键词 和 site 指令之间有一个空格):关键词 site: 或 site: 关键词

  例如采集网站具有 文章:p hp 关键词站点:

  根据关键词采集数据完成功能设置,快速、简单、方便!!!

  您还可以设置是否根据关键词采集数据自动发送导出、按关键词采集文章自动发送导出等功能。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线