文章采集完(文章采集完成后,要回来做二次爬虫。之前爬取的视频网站)

优采云 发布时间: 2022-03-03 13:07

  文章采集完(文章采集完成后,要回来做二次爬虫。之前爬取的视频网站)

  文章采集完成后,要回来做二次爬虫。之前爬取的视频网站(百度影音、verycd、pps、油管)都是需要提取主页列表、标题和链接的。设置域名之后,再根据cookie访问即可(这里做的cookie设置略有不同),爬取时候带域名和cookie设置的cookie。第一步:爬取视频列表的网页。通过检查发现cookie的有效期是一年,这里我选用的是。

  而且,这个网页有其他类似于网页采集工具提供抓取下载的,还有你也可以用脚本来抓取下载。抓取时候可以多试试几个网站,确保都已经抓取。此时这个列表列表已经全部爬取完成,我用python的gensim包来抓取不同网站的某些列表。(经评论区指正:抓取下来后需要转化成列表数据)然后把数据转化到data_mining_database.py文件中,此时我们开始做提取数据的工作。

  1、判断是否已经有爬取历史,如果没有记录的话,可以跳过。方法很简单,右键点击选择“删除记录”即可。不过如果你没有连接过的话,你就会只提取了其中一段视频。例如,你可以通过自己的抓取历史,把其中的视频地址抓取到data_mining_database.py文件中,然后在数据结构修改前,判断data_mining_database是否有连接过抓取历史的,如果有,就抓取,不需要的话就直接删除掉。

  没有抓取历史的网页地址,在自己已经修改完成的数据结构中修改它的html格式:video=""video_data='video_data'title=""log=""link=""tag_name=""src=""page=""page_name=""src_name=""bin=""max_size=1024max_id=2024max_frames=6max_id_source=0max_base_id=1534max_id_maxid=8534withurl(if(is_search_download)):video_prefix=soup.div.search(link=link,title=title,href=text(),src=src)video_link=soup.select('#my_heart_game_all_video')video_data=video_data.get_one_href()video_src=video_src.split('.')[-1]print(video_src)或者:print("{}".format(my_matrix.v_size(),my_matrix.v_column()))提取列表中已经爬取过的视频列表,用requests库完成。

  首先我们要加载网页,这里不在介绍我的网站了。这里加载的数据包括:视频列表的url地址列表中已经爬取过的地址播放地址提取的链接。fromurllibimportrequesturl_parse_url=""page_name=""data_mining_database=[]soup=beaut。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线