网站内容抓取(高价值Python学习视频教程及相关电子版书籍,欢迎前来领取)
优采云 发布时间: 2022-04-02 17:13网站内容抓取(高价值Python学习视频教程及相关电子版书籍,欢迎前来领取)
前言
Python 现在非常流行,语法简单,功能强大。很多同学都想学Python!因此,我们为大家准备了高价值的Python学习视频教程和相关电子书,欢迎前来采集!
实施思路:
在一个电影中抓取所有电影网站的思路如下:
根据一个URL获取所有类别的电影网站获取该电影在每个类别中的页数根据其电影类别的URL规律构造每个类别中每个页面的URL分析其中的html每一页,并用正则表达式过滤掉电影信息
准备工作:
安装python(我用的是mac系统,默认版本是python2.7.1)安装mongodb,从官网下载最新版本,然后启动,注意if放在外网,设置验证密码或绑定地址为127.0.0.1,否则黑客很容易进去安装BeautifulSoup和pymongo模块安装一个python编辑器,我个人喜欢用sublime text2
写作部分:
本次以腾讯视频为例,其他视频网站改正则表达式即可。
根据所有视频类别的url获取网站中所有视频类别
所有腾讯视频的网址是:
首先我们导入urllib2包,在url中封装一个读取html的方法。详细代码如下:
导入所需模块并定义全局变量:
gethtml方法,传入一个url,返回url的html内容:
#根据指定的URL获取网页内容
def gethtml(url):
req = urllib2.Request(url)
response = urllib2.urlopen(req)
html = response.read()
return html
然后查看这个URL的源代码文件就知道它的电影分类的信息在
更多文章