网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)
优采云 发布时间: 2021-10-09 06:16网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)
Python抓取单个网页需要加载的URL地址和CSS、JS文件地址
通过学习Python爬虫,我们知道可以根据形式表达式匹配(标题、图片、文章等)找到我们需要的东西。并且我从测试的角度使用Python爬虫,希望能爬取访问网页所需的CSS、JS、URL,然后请求这些地址,根据响应状态码判断是否可以访问成功。
代码
<p>'''
Created on 2017-08-02 <br /><br />
@author: Lebb <br />
'''<br />
import sys<br />
import urllib2<br />
import re<br />
reload(sys)<br />
sys.setdefaultencoding('utf-8')<br /><br />
url = "https://www.szrtc.cn/"<br />
http = "http"<br />
request = urllib2.Request(url,headers=Headers)<br />
responsecode = None<br />
errorcount = 0<br />
itemurl = url<br /><br />
def getResponse():<br />
try:<br />
response = urllib2.urlopen(request)<br />
except urllib2.HTTPError,he:<br />
print he.code<br />
except urllib2.URLError,ue:<br />
print ue.reason<br />
else :<br />
return response.read().decode('utf-8')<br /><br />
def getUrl():<br />
html = getResponse()<br />
patterncss ='