js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)

优采云发布时间: 2022-01-28 17:17

　　检索数据

　　前面已经描述了整个过程。现在获取数据，首先获取一个URL的网页内容，然后获取多个网页内容。

　　获取标头标头：

　　按F12，然后找到Network，找到Doc，按F5刷新，然后按左上角的红色按钮停止取值，将鼠标拖到开头，点击后会有关于请求的信息，点击它，并且在Department User-Agent的末尾会有一个标题。

　　获取 URL 的 Web 内容：

　　#得到指定一个URL的网页内容

def askURL(url):

#模拟浏览器头部信息，向服务器发送消息

head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400"}

#用户代理‘表示告诉服务器，我门是什么类型的机器、浏览器

request = urllib.request.Request(url,headers=head)

html = ''

try:

response = urllib.request.urlopen(request)

html = response.read().decode("utf-8")

print(html)

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

return html

if __name__=="__main__":

#调用函数

askURL("https://movie.douban.com/top250?statrt=1")

　　注意：使用 try 是异常处理。

　　获取多个网页内容：

　　这是使用循环的时候了。

　　def main():

baseurl='https://movie.douban.com/top250?statrt=i'

#爬取网页

datalist=getData(baseurl)

def getData(baseurl):

datalist=[]

for i in range(0,10): #调用获取页面信息的函数，10次

url = baseurl+str(i*25)

html = askURL(url) #保存获取到的网页源码

#2.逐一解析数据

return datalist

　　现在只获取网页的内容，不进行解析。需要更多的知识来扩展。

0

2022-01-28

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)

0 个评论

发起人

AI时代内容工厂

js 爬虫抓取网页数据(获取数据网页内容获取多个网页内容头部获取网页内容)

0 个评论

发起人

相关问题