python抓取动态网页(PHP、java、javascript、python,其中python可以说是操作起来最方便,缺点最少的语言了)
优采云 发布时间: 2022-03-18 17:03python抓取动态网页(PHP、java、javascript、python,其中python可以说是操作起来最方便,缺点最少的语言了)
除了C/C++,我还接触过很多流行的语言,PHP、java、javascript、python,其中python可以说是操作最方便,缺点最少的语言。
前几天想写一个爬虫,但是和朋友商量后,决定过几天一起写。爬虫的一个重要部分就是爬取页面中的链接,这里我就简单实现一下。
首先我们需要使用一个开源模块,requests。这不是python自带的模块,需要从网上下载解压安装:
代码如下:
$ curl -OL
$ python setup.py 安装
Windows用户直接点击下载。解压后,使用命令python setup.py install本地安装。
我也在慢慢翻译这个模块的文档,翻译完会上传给大家(英文版先在附件中发)。正如它的描述所说,为人类建造,为人类设计。使用起来很方便,自己看文档。最简单的,requests.get() 发送一个 get 请求。
代码如下:
代码如下:
#编码:utf-8
重新导入
导入请求
# 获取网页内容
r = requests.get('')
数据 = r.text
# 使用正则查找所有连接
link_list =re.findall(r"(?