文章采集程序(文章采集程序采集出来的信息是怎么来的呢?)
优采云 发布时间: 2021-11-21 15:04文章采集程序采集出来的信息是网页里的内容,然后第一次需要把这些内容显示到图片上就需要另外一个第三方工具来展示。以图片为例,那么我们的数据是怎么来的呢,是通过爬虫或者是数据采集。爬虫工具的话对于新手来说可能还是有点复杂,很多人可能花了好几天才搞定一个爬虫,这里就先用图片采集的方式来实现。数据采集其实很简单,将图片上传到服务器里,服务器将图片的内容返回给爬虫。
也就是说你在图片里打一个css,爬虫就能爬去,你在图片里打一个javascript,爬虫就能解析,你在图片里打一个cdn,爬虫就能获取这个图片的地址信息。采集完成后保存在cookie里,这样爬虫就可以识别到你这个图片,然后从服务器获取图片地址,那么你就可以返回到图片里。#-*-coding:utf-8-*-importrequestsfrombs4importbeautifulsoupfromwordcloudimportwordcloudwithopen('raw/word.jpg','w')asf:forfileinf:content=f.read().decode('utf-8')res=requests.get(content)res=wordcloud(res=res,image=str(content))withopen('raw/post.jpg','w')asf:forfileinf:imgurl=file.read().decode('utf-8')imgurl=imgurl+"?"+str(content)lines=[]foriinrange(0,len(res)):imgurl.append(res[i].decode('utf-8'))forlineinlines:picurl=[iforiinrange(0,len(res))]print('请输入内容:',picurl)forlineinpicurl:href=[re.search('/(.*)/(.*)/?!',line)forreinrequests.get(href)]soc=wordcloud(str(line))forsocinsoc:imgurl=imgurl+'?'+str(content)print('请返回网页地址',imgurl)print('请输入输入数据:',soc)执行效果可以看到返回地址是:页面地址:地址中含有javascript元素,即javascript代码,因此我们可以使用javascript代码来实现图片的浏览,页面中查看效果。
我们可以手动修改imgurl链接中的参数,加入本次爬取图片地址,虽然这样可以采集的数据有些会少点,但是我们可以自定义图片地址,再加上我们返回的图片地址,这样就可以实现自动爬取了。我们有两个分页数据。#-*-coding:utf-8-*-importrequestsfrombs4importbeautifulsoupfromwordcloudimportwordcloudimportjsonwithopen('raw/dire。