网页文章采集工具(安装requests模块installrequests获取网页源码导入模块,简直好用到哭)既然要采集,肯定得先获取网页源码。其中使用urllib和requests模块最多。获取网页源码简单来说,一般获取网页信息,绝大部分都是用的get,而提交信息,基本都是用post。下面就来一段代码演示如何获取首页的源码。获取源码获取源码并解码为了提高复用性,所以打算把它封装成一个函数,比如get_web_source,这样以后获取不同的url,和编码,将其作为参数传入就能正确获取源码了。
继续阅读 »