js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)
优采云 发布时间: 2022-01-28 17:17js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)
检索数据
前面已经描述了整个过程。现在获取数据,首先获取一个URL的网页内容,然后获取多个网页内容。
获取标头标头:
按F12,然后找到Network,找到Doc,按F5刷新,然后按左上角的红色按钮停止取值,将鼠标拖到开头,点击后会有关于请求的信息,点击它,并且在Department User-Agent的末尾会有一个标题。
获取 URL 的 Web 内容:
#得到指定一个URL的网页内容
def askURL(url):
#模拟浏览器头部信息,向服务器发送消息
head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400"}
#用户代理‘表示告诉服务器,我门是什么类型的机器、浏览器
request = urllib.request.Request(url,headers=head)
html = ''
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
if __name__=="__main__":
#调用函数
askURL("https://movie.douban.com/top250?statrt=1")
注意:使用 try 是异常处理。
获取多个网页内容:
这是使用循环的时候了。
def main():
baseurl='https://movie.douban.com/top250?statrt=i'
#爬取网页
datalist=getData(baseurl)
def getData(baseurl):
datalist=[]
for i in range(0,10): #调用获取页面信息的函数,10次
url = baseurl+str(i*25)
html = askURL(url) #保存获取到的网页源码
#2.逐一解析数据
return datalist
现在只获取网页的内容,不进行解析。需要更多的知识来扩展。