网页抓取解密(如何能使正则表达式在源代码中抓取解密-python网页抓取)
优采云 发布时间: 2021-11-16 09:19网页抓取解密(如何能使正则表达式在源代码中抓取解密-python网页抓取)
网页抓取解密-python网页抓取解密我们知道,页面只有抓取到源代码以后,才能再向下进行抓取。但是在抓取页面源代码之前,我们是要先进行正则表达式的匹配的。我们已经抓取到了整个页面,而且页面用了一个空白的标题。这么做就是为了进行页面解密。正则表达式抓取大部分页面都会使用到正则表达式。正则表达式是从给定的文本中匹配某种特定的字符串。
正则表达式还有固定的参数字符串,即所匹配的字符串必须是字符串。正则表达式与我们平时所用的汉字类似,同样是汉字表示,并且可以限定其宽度。比如我们的刚接触正则表达式并不陌生,比如说我们找到在域名中包含两个汉字的网站,那么正则表达式就是[“\w”,“\d”,“\d”]而如果我们想让自己抓取的页*敏*感*词*有短地址,那么正则表达式就是["\w","\d","\d"]那么如何能使正则表达式在源代码中找到源代码呢?首先我们可以去查找我们想要找到的页面中的url地址。
如果没有的话,我们就使用urllib库中的正则表达式去匹配页面的url。这样一来我们的目标页面就出现在我们的解密的区域中了。今天的正则表达式就抓取到页面源代码,而我们接下来要去分析下这个页面中的信息。抓取sitemappage.pya.首先我们需要对文章进行分词,以便我们去比对正则表达式匹配到的到底是哪一个。
b.sitemappage.py是我们可以让其包含多个url,然后对于每一个url中的信息,我们要进行初步的分析。下图可以很好的体现下sitemappage.py内部的结构。首先是根据出现的频率分类,例如出现频率最高的内容为service是一个服务项目,那么就去找这个service项目下的所有相关文件的内容,然后再找其所在文件夹,我们通过层层的信息去分析到这个页面所包含的内容,例如其中包含详细的所有说明文件,其中包含service项目下所有相关的内容的所有文件的内容,然后就去将service项目下所有相关的内容下载出来,作为我们所需要的数据。
到此为止,sitemappage.py文件已经抓取到了页面内容。c.把我们所需要的数据去掉,留下包含我们需要的内容的sitemappage.py文件。接下来就是我们要解密的过程了。我们在解密所抓取的源代码之前,我们需要先去解密sitemappage.py文件的所有内容。这里,首先通过对html的解析,去dir命令中去匹配哪一段代码中包含了正则表达式里面的内容,或者我们直接去解析页面源代码中的目录就可以了。
下图可以展示出sitemappage.py文件的内容去到解密过程中,我们可以逐渐分析页面,我们可以看出页面的源代码一共有六部分,其中的每一部分都是一个文件。