想入门爬虫？那你就必须学好正则！爬虫入门和正则表达式超全合辑

优采云发布时间: 2020-06-30 08:02

　　urllib.request.urlopen(url)官方文档返回一个 http.client.HTTPResponse 对象, 这个对象又用到的read()方法;返回数据；这个函数返回一个 http.client.HTTPResponse 对象, 这个对象又有各类方式, 比如我们用到的read()方法；如果你也是编程的学习者或则早已学会了的编程者！小编这儿有个群：103456743！大家可以加下，里面布满了全国各地的学习者！为你们提供一个交流平台，不管平常有遇到哪些BUG或则学习过程中卡壳，找不到人替你解决？那么就进来吧，里面热心的小伙伴还是十分多的，管理也是很好的，有哪些问题，他假如有时间都能给你们解决，我认为是一个特别不错的交流平台，没事也可以和你们扯扯公司的事中学发生的轶事，群文件早已上传了很多G的资料，PDF，视频安装工具，安装教程都是有的，为了你们的学习能更进一步！也为了你们能愉快的交流，讨论学术问题！所以你还在等哪些呢?好了马上给你们带来正文！

　　data是一个字典, 然后通过urllib.parse.urlencode()来将data转换为 ‘word=one+peace’的字符串, 最后和url合并为full_url

　　python正则表达式介绍：

　　队列介绍

　　在爬虫的程序中用到了广度优先级算法，该算法用到了数据结构，当然你用list也可以实现队列，但是效率不高。现在在此处介绍下：

　　在容器中有队列：collection.deque

　　集合介绍：

　　在爬虫程序中, 为了不重复爬这些早已爬过的网站, 我们须要把爬过的页面的url放进集合中, 在每一次要爬某一个url之前, 先瞧瞧集合上面是否早已存在. 如果早已存在, 我们就跳过这个url; 如果不存在, 我们先把url装入集合中, 然后再去爬这个页面.

　　Python 还包含了一个数据类型—— set ( 集合 ) 。集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。集合对象还支持 union( 联

　　合),intersection(交),difference(差)和 sysmmetric difference(对称差集)等物理运算。

　　大括号或 set() 函数可以拿来创建集合。注意:想要创建空集合,你必须使用set() 而不是 {} 。{}用于创建空字典；

　　集合的创建演示如下：

　　正则表达式

　　在爬虫时搜集回去的通常是字符流，我们要从中选购出url就要求有简单的字符串处理能力，而用正则表达式可以轻松的完成这一任务；

　　正则表达式的步骤：1，正则表达式的编译 2，正则表达式匹配字符串 3，结果的处理

　　下图列举了正则表达式的句型：

　　在pytho中使用正则表达式网络爬虫正则表达式，需要引入re模块；下面介绍下该模块中的一些技巧；

　　pile和match

　　re模块中compile用于生成pattern的对象，再通过调用pattern实例的match方式处理文本最终获得match实例；通过使用match获得信息；

　　pattern:

　　Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方式可以对文本进行匹配查找。

　　Pattern不能直接实例化，必须使用pile()进行构造。

　　2.re.match(pattern, string, flags=0)

　　函数参数说明：

　　参数描述

　　pattern

　　匹配的正则表达式

　　string

　　要匹配的字符串。

　　flags

　　标志位，用于控制正则表达式的匹配方法，如：是否分辨大小写，多行匹配等等。

　　匹配成功re.match方式返回一个匹配的对象，否则返回None。

　　我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

　　匹配对象方式描述

　　group(num=0)

　　匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这些情况下它将返回一个包含这些组所对应值的元组。

　　groups()

　　返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

　　re.search方式

　　re.search 扫描整个字符串并返回第一个成功的匹配。

　　函数句型：

　　re.search(pattern, string, flags=0)

　　函数参数说明：

　　参数描述

　　pattern

　　匹配的正则表达式

　　string

　　要匹配的字符串。

　　flags

　　标志位，用于控制正则表达式的匹配方法，如：是否分辨大小写，多行匹配等等。

　　匹配成功re.search方式返回一个匹配的对象，否则返回None。

　　我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

　　匹配对象方式描述

　　group(num=0)

　　匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这些情况下它将返回一个包含这些组所对应值的元组。

　　groups()

　　返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

　　实例一：

　　search和match区别：

　　re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串网络爬虫正则表达式，直到找到一个匹配。

　　python爬虫小试牛刀

　　利用python抓取页面中所有的http合同的链接，并递归抓取子页面的链接。使用了集合和队列；此去爬的是我的网站，第一版好多bug；

　　代码如下：

　　那么你学会了吗？

0

2020-06-30

正则表达式 python正则 python爬虫

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

想入门爬虫？那你就必须学好正则！爬虫入门和正则表达式超全合辑

0 个评论

发起人