网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)
优采云 发布时间: 2021-10-09 12:12网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)
Python抓取单个网页需要加载的URL地址和CSS、JS文件地址
通过学习Python爬虫,我们知道可以根据形式表达式匹配(标题、图片、文章等)找到我们需要的东西。并且我从测试的角度使用Python爬虫,希望能爬取访问网页所需的CSS、JS、URL,然后请求这些地址,根据响应状态码判断是否可以访问成功。
代码
<p>'''
Created on 2017-08-02
@author: Lebb
'''
import sys
import urllib2
import re
reload(sys)
sys.setdefaultencoding('utf-8')
url = "https://www.szrtc.cn/"
http = "http"
request = urllib2.Request(url,headers=Headers)
responsecode = None
errorcount = 0
itemurl = url
def getResponse():
try:
response = urllib2.urlopen(request)
except urllib2.HTTPError,he:
print he.code
except urllib2.URLError,ue:
print ue.reason
else :
return response.read().decode('utf-8')
def getUrl():
html = getResponse()
patterncss ='