网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)

优采云发布时间: 2021-10-09 12:12

　　Python抓取单个网页需要加载的URL地址和CSS、JS文件地址

　　通过学习Python爬虫，我们知道可以根据形式表达式匹配（标题、图片、文章等）找到我们需要的东西。并且我从测试的角度使用Python爬虫，希望能爬取访问网页所需的CSS、JS、URL，然后请求这些地址，根据响应状态码判断是否可以访问成功。

　　代码

<p>'''

Created on 2017-08-02

@author: Lebb

'''

import sys

import urllib2

import re

reload(sys)

sys.setdefaultencoding('utf-8')

url = "https://www.szrtc.cn/"

http = "http"

request = urllib2.Request(url,headers=Headers)

responsecode = None

errorcount = 0

itemurl = url

def getResponse():

try:

response = urllib2.urlopen(request)

except urllib2.HTTPError,he:

print he.code

except urllib2.URLError,ue:

print ue.reason

else :

return response.read().decode('utf-8')

def getUrl():

html = getResponse()

patterncss ='

0

2021-10-09

网页css js 抓取助手

0 个评论

要回复文章请先登录或注册