文章采集调用( 大型网站反而很少尤其尤其是门户网站的问题!(上))
优采云 发布时间: 2022-02-03 22:20文章采集调用(
大型网站反而很少尤其尤其是门户网站的问题!(上))
我学习 Python 已经有一段时间了。在学习的过程中,我不断地实践所学的各种知识。我做的最多的是爬虫,也就是简单的数据采集,里面有采集图片(这个是最多的……),有的下载电影,有的和学习有关,比如爬虫ppt模板,当然我也写过诸如收发邮件、自动登录论坛发帖、验证码相关操作等等!
这些脚本有一个共同点,它们都与网络相关,并且总是使用一些获取链接的方法。我在这里总结一下,分享给正在学习的人。
安装相关
其实python的各个版本差别不大,不用太担心使用3.6或者3.7.
至于我们经常使用的库,建议大家先了解安装哪些库,安装哪些库。
有的同学会纠结,库装不上。这个推荐大家搜索一下:python whl 是第一个。其中每个库都有不同的版本。选择对应的下载,用pip安装文件的全路径安装。!
例如:pip install d:\requests_download-0.1.2-py2.py3-none-any.whl
最基本的抓取站——获取源码
导入请求#导入库
html = requests.get(url)#获取源代码
html.encoding='utf-8'#指定收录中文的网页源码的编码格式,具体格式一般存在于源码的meta标签中
对于静态网页
网站反“反爬”
大部分网站(各种中小网站)都需要你的代码有headers信息,如果没有,会直接拒绝你的访问!大型网站很少,尤其是门户网站网站,如新浪新闻、今日头条图集、百度图片爬虫等。@>!
对于有防爬措施的网站,大部分都可以按照添加UA信息的顺序添加到headers数据(字典格式)中——添加HOST和Referer(防盗链)信息!代码格式 requestts.get(url,headers=headers)
UA信息就是浏览器信息,告诉对方我们是什么浏览器。通常,我们可以采集相关信息来制作一个UA池。我们可以在需要的时候调用,也可以随机调用,防止被网站发现,注意是的,如果是移动端,一定要注意移动端网页的区别和 PC 终端。例如,我们更喜欢移动端作为微博爬虫。其抗爬网能力远低于PC端。@网站 反爬很厉害,可以到手机端(手机登录复制url),说不定有惊喜!
HOST信息,网站的主机信息,这个一般不变
Referer信息,这是“防盗链”的关键信息。简单来说就是你来到当前页面的地方,破解也很简单,把url放进去就行了!
如果上面的方法还是绕不过反爬的话,那就比较麻烦了,把所有信息都写在headers里。
终极反“反爬”:学硒,少年!
保存文件
其实可以简单的分为两类:字符串内容保存和其他内容保存!简单2行代码即可解决
a+是文本末尾的附加书写方式,适合字符串内容的书写。注意排版。也可以在'a+'后面加上参数encoding='utf-8'来指定保存文本的编码格式
wb为二进制写入方式,适用于找到对象的真实下载地址后,以二进制方式下载文件
待续
篇幅有限,本来想写完的,但是有人说我写的太多了,没人看。. . 这很尴尬!那就先写到这里吧!
也是时候重新整理一下以下内容了,大概是:自动登录(cookie池)和登录、ip代理、验证码(这是个大项目)以及scarpy框架的一些注意事项。
有其他技能或者问题的同学也可以在评论区写,一起讨论吧!
写在最后
喜欢这篇文章文章或者认为这篇文章文章对你有帮助的读者可以关注或者点播转发,私信小编001获取最新python数据和0副本2018年小编整理的。基础入门教程,欢迎初学者和高级朋友