网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)

优采云 发布时间: 2021-10-09 06:16

  网页css js 抓取助手(Python爬取网页所需要的URL地址和CSS、JS文件)

  Python抓取单个网页需要加载的URL地址和CSS、JS文件地址

  通过学习Python爬虫,我们知道可以根据形式表达式匹配(标题、图片、文章等)找到我们需要的东西。并且我从测试的角度使用Python爬虫,希望能爬取访问网页所需的CSS、JS、URL,然后请求这些地址,根据响应状态码判断是否可以访问成功。

  代码

<p>&#39;&#39;&#39;

Created on 2017-08-02 <br /><br />

@author: Lebb <br />

&#39;&#39;&#39;<br />

import sys<br />

import urllib2<br />

import re<br />

reload(sys)<br />

sys.setdefaultencoding(&#39;utf-8&#39;)<br /><br />

url = "https://www.szrtc.cn/"<br />

http = "http"<br />

request = urllib2.Request(url,headers=Headers)<br />

responsecode = None<br />

errorcount = 0<br />

itemurl = url<br /><br />

def getResponse():<br />

try:<br />

response = urllib2.urlopen(request)<br />

except urllib2.HTTPError,he:<br />

print he.code<br />

except urllib2.URLError,ue:<br />

print ue.reason<br />

else :<br />

return response.read().decode(&#39;utf-8&#39;)<br /><br />

def getUrl():<br />

html = getResponse()<br />

patterncss =&#39;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线