原创文章自动采集(自动采集全网购物车商品主图下载-python爬虫-理臣)

优采云 发布时间: 2021-12-10 22:10

  原创文章自动采集(自动采集全网购物车商品主图下载-python爬虫-理臣)

  原创文章自动采集全网购物车商品主图下载-python爬虫-理臣教育商品下载就像车轮滚滚向前一样,是一个不断轮回的过程,今天我们要做的就是要自动下载商品主图。简单来说,就是要用到爬虫,本节的目标就是爬取上面商品主图。我相信很多人都想过爬虫,但是真正会爬的却少之又少,首先是爬的时候比较麻烦,另外一个就是对于大部分人来说,不知道如何去实现。

  下面,我就以零基础为目标,以图片作为素材,以一键下单购物车为参考,一步步教你如何一键下载上所有的商品主图。首先,我们要下载想要抓取的商品,这里我用某宝商品做示范(以下图片的网址是:/,通过一键下单购物车并点击进入:/)我们先使用python的requests库完成数据的提取:importrequestsimportreimportrequestslibdefget_top_url(url):url='/'r=requestslib.request(url)r=requestslib.urlopen(url)returnresponse=requestslib.urlopen(r)这样,就抓取到了一部分商品网页了,但是我们不满足于仅仅是抓取到网页的信息,我们还想获取网页里面的数据,也就是要爬取的商品主图,所以这一步就是要用到python中的re模块:importrequestslibimportreimportrequestslib.requestdefget_top_image(image):wid,msg={'message':msg}#从文件获取图片的标题与描述image=requestslib.urlopen(image).read()image=urllib.urlencode(image).encode('utf-8')returnimagedefget_pic_data(pic_data):try:try:forimageinpic_data.split('/'):url='//'+str(pic_data[image.size])+'.jpg'print(url)except:print('ok!')print('\n')m=msg.split('/')[0]to_url='/'to_data=m.split('/')[1]image=requestslib.urlopen(image)image=urllib.urlencode(image).encode('utf-8')returnimagepic_data=get_top_image(pic_data)这一步结束以后,就可以登录商城获取商品主图了,毕竟获取图片是比较耗时耗力的,这样就抓取一个商品主图,需要下载一整列:importrequestslibimportrequestslib.urlopenimportrequestslib.urlopendefget_top_image(image):url='/'wid,msg={'message':msg}#从文件获取图片的标题与描述image=requestslib.urlopen(。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线