网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)

优采云 发布时间: 2021-10-09 12:12

  网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)

  Python抓取单个网页需要加载的URL地址和CSS、JS文件地址

  通过学习Python爬虫,我们知道可以根据形式表达式匹配(标题、图片、文章等)找到我们需要的东西。并且我从测试的角度使用Python爬虫,希望能爬取访问网页所需的CSS、JS、URL,然后请求这些地址,根据响应状态码判断是否可以访问成功。

  代码

<p>&#39;&#39;&#39;

Created on 2017-08-02

@author: Lebb

&#39;&#39;&#39;

import sys

import urllib2

import re

reload(sys)

sys.setdefaultencoding(&#39;utf-8&#39;)

url = "https://www.szrtc.cn/"

http = "http"

request = urllib2.Request(url,headers=Headers)

responsecode = None

errorcount = 0

itemurl = url

def getResponse():

try:

response = urllib2.urlopen(request)

except urllib2.HTTPError,he:

print he.code

except urllib2.URLError,ue:

print ue.reason

else :

return response.read().decode(&#39;utf-8&#39;)

def getUrl():

html = getResponse()

patterncss =&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线