如何处理花瓣网的图片?如何转换成简易html?

优采云 发布时间: 2022-06-20 02:05

  如何处理花瓣网的图片?如何转换成简易html?

  文章内容采集对象是花瓣网,而我想采集图片并转换成简易html,并不是我要给花瓣网做软件。没有做,做的是相似推荐,这个事儿计划很久了,但想想不干太可惜,总得有个东西,让人提不起干这件事的欲望,那就是图片。这件事儿要挑战和解决两个方面的问题:如何处理花瓣网的图片?如何提取花瓣网的html文本?以及后续的一些思考方式。

  1.花瓣网的图片首先来看看花瓣网的全景图。有什么问题呢?显然很多朋友说了,在花瓣上搜完,图片上面会自动出现些小黄条。这个问题很像豆瓣电影评分,在这里就提到下豆瓣电影的一个比较奇怪的评分系统,个人认为豆瓣的评分系统做的比较差。因为它考虑的内容太单一,几乎都是一个人喜欢看的电影的类型,并且喜欢这个电影的人也非常多,就会造成一个比较混乱,甚至有一些人喜欢上不同的电影,这个时候喜欢豆瓣电影的电影评分却并不能完全反映出这个人的喜好,这个应该属于个性化推荐这块。

  那么我觉得花瓣网之所以会出现很多自动出现的小黄条,可能是花瓣网的评分网站目前还没有做好,这就好比豆瓣网的评分可能是不完整的。那花瓣网上的图片应该是怎么样的一个评分系统呢?这需要建立一个评分分组,就好像一个小组,大家可以自由加入,对同一张图片,根据自己的爱好和口味可以加入不同的评分。那我们来看看最近的一张图片,和我们常见的网页看齐。

  2.提取花瓣网的html文本接下来我们来了解下,我们要提取花瓣网的文本,我们要用到什么工具,花瓣html网页分析框架。花瓣网的图片是有一个「tag」的,一般情况下tag是这个网页本身就带的。html文本也是有tag的,不同的是,html文本可以有多个tag的,比如以下这个tag:我们提取花瓣网的图片,就用这个tag:我们输入一个tag,图片就会出现下面的图标,只要按住alt键不放,它们就会复制上来:3.后续对这篇文章的思考本来想用python,但是由于小白,又不想因为不懂上手从头写起,于是还是用我最擅长的java爬虫语言爬取了。

  总结了一下,刚写的这篇文章有以下四点:1.花瓣网的图片tag完整2.简化提取3.提取出来不要误导新手4.重视质量先说明一下,我本身并不是做python爬虫的,但是简单了解了下爬虫的知识,就试着抓取了一下,一共爬取了102张花瓣网的图片,用到的是两个开源的爬虫框架。1.优采云采集器:优采云采集器安装:源码地址:-score.exe2.优采云爬虫框架:源码地址::max/,原理是通过翻页的,所以比较费时,推荐大家采用优采云采集器的官方文档。用简单的采集器采集了102张图片。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线