网页文章采集工具( 最基本的抓站—获取源代码的网站(各类中小型网站))

优采云 发布时间: 2021-12-26 16:06

  网页文章采集工具(

最基本的抓站—获取源代码的网站(各类中小型网站))

  

  学Python有一阵子了,在学习的过程中一直在练习各种知识,做的最多的就是爬行,就是简单的数据采集

,采集

图片(这个是最多的……),还有下载电影。是的,还有学习相关的比如ppt模板爬取。当然,我也写过收发邮件、自动登录论坛发帖、验证码相关操作等等!

  这些脚本有一个共同点。它们都与网络有关。一些获取链接的方法总是被使用。我将在这里总结一下,与正在学习的人分享。

  安装相关

  各个版本的python其实差别不大,所以不要太纠结使用3.6或者3.7.

  至于我们经常使用的库,建议大家了解一下安装哪些库,安装哪些库

  有的同学会被库不能安装的问题纠结。这个推荐大家百度搜索:python whl 第一个是,每个库都有各种版本,选择对应的下载回来,用pip安装文件的全路径安装。能!

  最基本的抢站点-获取源码

  导入请求#导入库

  html = requests.get(url)#获取源码

  适用于静态网页

  网站防“防爬”

  大多数网站(各类中小型网站)都会要求你的code有header信息,如果没有,你的访问会直接被拒绝!相反,大型网站很少,尤其是门户网站,如新浪新闻、今日头条地图集、百度图片爬虫等。基本没有反爬虫措施。相关内容请查看我的其他文章!

  对于有防爬措施的网站,大部分都可以通过按照头部数据(字典格式)的顺序添加UA信息——添加HOST、Referer(防盗链)信息来尝试!代码格式 requests.get(url,headers=headers)

  UA信息是浏览器信息。告诉其他服务器我们是什么浏览器。我们可以采集

相关信息并制作一个UA池。可以在需要的时候调用,也可以随意调用,防止被网站发现。注意,如果是移动端,要注意移动端和PC端的网页的区别。例如,我们更喜欢移动端作为微博爬虫。其抗攀爬力远低于PC端。我们也提醒大家,如果一个网站防爬的很好,可以到手机端(手机登录,复制url),可能会有惊喜哦!

  

  用户信息

  HOST信息,网站的主机信息,这个一般不变

  Referer信息,这是“防盗链”的关键信息。简而言之,它是您从何处到达当前页面的位置。破解也很简单。把网址放进去就行了!

  如果上面的方法还是不能绕过反爬的话,那就比较麻烦了。在标题中写入所有信息。

  终极反“反爬”:去学硒小子!

  保存文件

  其实可以简单的分为两类:字符串内容存储和其他内容存储!所以2中的简单代码就可以解决了

  

  a+为文本末尾的append书写方式,适合书写字符串内容,注意排版,也可以在'a+'后面添加参数 encoding='utf-8' 指定保存文本的编码格式

  wb为二进制写入方式,适用于找到对象的真实下载地址后以二进制方式下载文件

  

  待续

  篇幅有限,本来想写完的,结果有人说写的太多了,没人看。. . 这很尴尬!那先写到这里吧!

  也有时间重新整理一下下面的内容,大概是:自动登录(cookie池)并保持登录,ip代理,验证码(这个是大项),以及scarpy框架的一些注意事项。

  有其他技巧或者问题的同学也可以在评论区留言,一起讨论吧!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线