搜索引擎如何抓取网页(搜索引擎如何抓取网页?许多人都知道抓取有三种方法)
优采云 发布时间: 2021-10-19 21:01搜索引擎如何抓取网页(搜索引擎如何抓取网页?许多人都知道抓取有三种方法)
搜索引擎如何抓取网页?许多人都知道python抓取有三种方法:get/post/cookie,但是并不知道如何实现。下面为大家一一介绍。
一、使用get方法抓取网页图片file.get('../file/sht.jpg')如果是用python爬虫爬取,这种方法基本上是必备的,爬取完之后我们可以用excel统计相应的数据。
importrequestsforurlinfile:url=';sort=all&row=x'headers={'user-agent':'mozilla/5.0(windowsnt6.1;wow6
4)applewebkit/537。36(khtml,likegecko)chrome/53。2995。142safari/537。36'}body=requests。get(url,headers=headers)body。decode('utf-8')foriinbody:print(i,end='')得到的结果:file。
get('。/file/sht。jpg')file。get('。/file/sht。jpg')。save('file。pdf')。
二、使用post方法抓取网页图片file.post('',data={'imageurl':''})这种方法只能抓取文件本身,不能抓取链接。对于文件太大时,请求处理起来比较麻烦。
三、利用cookie实现网页抓取点击链接进去之后,
2)。这时给页面添加cookie值(score),当用户登录的时候页面就会提示:注册,然后向登录方发送get请求,并请求获取cookie值。我们就可以获取cookie值。
(本地设置cookie值)file.set_cookie('score',
1)然后用httpresponse.send()方法发送post请求到指定网站去。
defget(url):#file=""file_headers={'user-agent':'mozilla/5.0(windowsnt6.1;wow6
4)applewebkit/537。36(khtml,likegecko)chrome/53。2995。142safari/537。36'}body=pd。data。read_database()headers={'cookie':'bookid'}request=requests。get(url,headers=headers)returnrequest。
text/json(request。get('bookid'))get(data={'text':'','pid':''})。
三、利用prequest发送post请求爬取页面post提交了数据给服务器,对方收到就会给返回结果,将post页面发给别人点击,服务器就会返回结果如下:('注册用户名')使用itchat模块进行了一些扩展,开始爬取登录信息。file.post(url,params={'keyword':'名称'})file.post(url,params={'authority':''})file.post(。