网页抓取解密(如何能使正则表达式在源代码中抓取解密-python网页抓取)

优采云发布时间: 2021-11-16 09:19

　　网页抓取解密-python网页抓取解密我们知道，页面只有抓取到源代码以后，才能再向下进行抓取。但是在抓取页面源代码之前，我们是要先进行正则表达式的匹配的。我们已经抓取到了整个页面，而且页面用了一个空白的标题。这么做就是为了进行页面解密。正则表达式抓取大部分页面都会使用到正则表达式。正则表达式是从给定的文本中匹配某种特定的字符串。

　　正则表达式还有固定的参数字符串，即所匹配的字符串必须是字符串。正则表达式与我们平时所用的汉字类似，同样是汉字表示，并且可以限定其宽度。比如我们的刚接触正则表达式并不陌生，比如说我们找到在域名中包含两个汉字的网站，那么正则表达式就是[“\w”,“\d”,“\d”]而如果我们想让自己抓取的页*敏*感*词*有短地址，那么正则表达式就是["\w","\d","\d"]那么如何能使正则表达式在源代码中找到源代码呢？首先我们可以去查找我们想要找到的页面中的url地址。

　　如果没有的话，我们就使用urllib库中的正则表达式去匹配页面的url。这样一来我们的目标页面就出现在我们的解密的区域中了。今天的正则表达式就抓取到页面源代码，而我们接下来要去分析下这个页面中的信息。抓取sitemappage.pya.首先我们需要对文章进行分词，以便我们去比对正则表达式匹配到的到底是哪一个。

　　b.sitemappage.py是我们可以让其包含多个url，然后对于每一个url中的信息，我们要进行初步的分析。下图可以很好的体现下sitemappage.py内部的结构。首先是根据出现的频率分类，例如出现频率最高的内容为service是一个服务项目，那么就去找这个service项目下的所有相关文件的内容，然后再找其所在文件夹，我们通过层层的信息去分析到这个页面所包含的内容，例如其中包含详细的所有说明文件，其中包含service项目下所有相关的内容的所有文件的内容，然后就去将service项目下所有相关的内容下载出来，作为我们所需要的数据。

　　到此为止，sitemappage.py文件已经抓取到了页面内容。c.把我们所需要的数据去掉，留下包含我们需要的内容的sitemappage.py文件。接下来就是我们要解密的过程了。我们在解密所抓取的源代码之前，我们需要先去解密sitemappage.py文件的所有内容。这里，首先通过对html的解析，去dir命令中去匹配哪一段代码中包含了正则表达式里面的内容，或者我们直接去解析页面源代码中的目录就可以了。

　　下图可以展示出sitemappage.py文件的内容去到解密过程中，我们可以逐渐分析页面，我们可以看出页面的源代码一共有六部分，其中的每一部分都是一个文件。

0

2021-11-16

网页抓取解密

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取解密(如何能使正则表达式在源代码中抓取解密-python网页抓取)

0 个评论

发起人