js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)

优采云 发布时间: 2022-01-28 17:17

  js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)

  检索数据

  前面已经描述了整个过程。现在获取数据,首先获取一个URL的网页内容,然后获取多个网页内容。

  获取标头标头:

  按F12,然后找到Network,找到Doc,按F5刷新,然后按左上角的红色按钮停止取值,将鼠标拖到开头,点击后会有关于请求的信息,点击它,并且在Department User-Agent的末尾会有一个标题。

  

  获取 URL 的 Web 内容:

  #得到指定一个URL的网页内容

def askURL(url):

#模拟浏览器头部信息,向服务器发送消息

head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400"}

#用户代理‘表示告诉服务器,我门是什么类型的机器、浏览器

request = urllib.request.Request(url,headers=head)

html = ''

try:

response = urllib.request.urlopen(request)

html = response.read().decode("utf-8")

print(html)

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

return html

if __name__=="__main__":

#调用函数

askURL("https://movie.douban.com/top250?statrt=1")

  

  注意:使用 try 是异常处理。

  获取多个网页内容:

  这是使用循环的时候了。

  def main():

baseurl='https://movie.douban.com/top250?statrt=i'

#爬取网页

datalist=getData(baseurl)

def getData(baseurl):

datalist=[]

for i in range(0,10): #调用获取页面信息的函数,10次

url = baseurl+str(i*25)

html = askURL(url) #保存获取到的网页源码

#2.逐一解析数据

return datalist

  现在只获取网页的内容,不进行解析。需要更多的知识来扩展。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线