网页文章采集工具( 最基本的抓站—获取源代码的网站（各类中小型网站）)

优采云发布时间: 2021-12-26 16:06

　　网页文章

最基本的抓站—获取源代码的网站（各类中小型网站）)

　　学Python有一阵子了，在学习的过程中一直在练习各种知识，做的最多的就是爬行，就是简单的数据采集

，采集

图片（这个是最多的……），还有下载电影。是的，还有学习相关的比如ppt模板爬取。当然，我也写过收发邮件、自动登录论坛发帖、验证码相关操作等等！

　　这些脚本有一个共同点。它们都与网络有关。一些获取链接的方法总是被使用。我将在这里总结一下，与正在学习的人分享。

　　安装相关

　　各个版本的python其实差别不大，所以不要太纠结使用3.6或者3.7.

　　至于我们经常使用的库，建议大家了解一下安装哪些库，安装哪些库

　　有的同学会被库不能安装的问题纠结。这个推荐大家百度搜索：python whl 第一个是，每个库都有各种版本，选择对应的下载回来，用pip安装文件的全路径安装。能！

　　最基本的抢站点-获取源码

　　导入请求#导入库

　　html = requests.get(url)#获取源码

　　适用于静态网页

　　网站防“防爬”

　　大多数网站（各类中小型网站）都会要求你的code有header信息，如果没有，你的访问会直接被拒绝！相反，大型网站很少，尤其是门户网站，如新浪新闻、今日头条地图集、百度图片爬虫等。基本没有反爬虫措施。相关内容请查看我的其他文章！

　　对于有防爬措施的网站，大部分都可以通过按照头部数据（字典格式）的顺序添加UA信息——添加HOST、Referer（防盗链）信息来尝试！代码格式 requests.get(url,headers=headers)

　　UA信息是浏览器信息。告诉其他服务器我们是什么浏览器。我们可以采集

相关信息并制作一个UA池。可以在需要的时候调用，也可以随意调用，防止被网站发现。注意，如果是移动端，要注意移动端和PC端的网页的区别。例如，我们更喜欢移动端作为微博爬虫。其抗攀爬力远低于PC端。我们也提醒大家，如果一个网站防爬的很好，可以到手机端（手机登录，复制url），可能会有惊喜哦！

　　用户信息

　　HOST信息，网站的主机信息，这个一般不变

　　Referer信息，这是“防盗链”的关键信息。简而言之，它是您从何处到达当前页面的位置。破解也很简单。把网址放进去就行了！

　　如果上面的方法还是不能绕过反爬的话，那就比较麻烦了。在标题中写入所有信息。

　　终极反“反爬”：去学硒小子！

　　保存文件

　　其实可以简单的分为两类：字符串内容存储和其他内容存储！所以2中的简单代码就可以解决了

　　a+为文本末尾的append书写方式，适合书写字符串内容，注意排版，也可以在'a+'后面添加参数 encoding='utf-8' 指定保存文本的编码格式

　　wb为二进制写入方式，适用于找到对象的真实下载地址后以二进制方式下载文件

　　待续

　　篇幅有限，本来想写完的，结果有人说写的太多了，没人看。. . 这很尴尬！那先写到这里吧！

　　也有时间重新整理一下下面的内容，大概是：自动登录（cookie池）并保持登录，ip代理，验证码（这个是大项），以及scarpy框架的一些注意事项。

　　有其他技巧或者问题的同学也可以在评论区留言，一起讨论吧！

0

2021-12-26

网页文章采集工具

0 个评论

要回复文章请先登录或注册