就是很难一篇文章讲解过垃圾网站的情况,如何配置发布端
优采云 发布时间: 2021-08-12 01:24
就是很难一篇文章讲解过垃圾网站的情况,如何配置发布端
上一篇文章解释了垃圾网站的情况,其中提到了一种特殊的垃圾网站,就是使用采集插件实现网站的自动填充内容。
作者之前没有做过采集,近期打算搭建一个资源分享网站。由于资源和材料很多,我自己做了,所以花了300块钱请人做一个采集。经过研究不难发现,所以今天分享给大家。
一、知道采集plugin
想要用好采集工具,首先要知道有哪些采集工具可用。如果你的网站是用各种开源系统搭建的(开源系统可以看我之前的文章),一般都会有对应的采集插件,还有一些比较有名的采集软件。
采集的作者也不专业。今天只分享作者使用的优采云采集软件。它不作为插件存在,而是作为一个独立的软件存在,只能在windows上运行。在系统中。
要使用优采云采集,需要知道如何配置发布者以及如何配置采集对象。所谓发布端就是你自己的网站,所谓采集object就是你要提供的具体采集object的页面内容。
二、发布终端如何配置 因为是花钱的人做的,这部分正是作者无法解释清楚的,因为发布模块设置了访问密码。
因为作者花钱请人制作,所以有理由相信模块的制作人也是为了保护自己的劳动成果。但同时作者也发现网站可以下载各种开源系统的发布模块。
同时,这个网站文章还有很多采集函数写的学习类,有兴趣的朋友可以深挖,不想深挖的可以看如果您使用任何网站。系统的发布模块。
三、如何配置采集端这里不得不说作者也偷了个懒,自己没认真研究采集,只是根据别人写的规则研究了。
从上面的截图可以看出,这是采集配置的第一个地方。左边的“一级列表页面”表示我认为采集的页面只有一级列表,接下来就是干货了!
1、 提取规则中的代码从哪里得到的? · 通过浏览器打开起始网址(即我们想要采集内容的页面)
·在打开的页面按F12(windows电脑)调出网页调试
·选择小箭头(mac和windows系统不一样,自己找)
· 选择页面上的内容区域
仔细对比这里的代码是否与提取规则中的代码完全一致?没错,抽取规则就是以此内容为切入点。同时,提取这个缩略图作为你自己网站发布的缩略图。
注意:[parameter]标签是需要提取的信息,(*)标签代表被忽略的信息。
2、在哪里可以找到设置区域?还是用刚才的方法,这次我们用小箭头选择整个列表页:
再对比一下
另一个其实是翻页标签。你要知道这个列表有很多分页。 采集系统需要识别到哪里翻页:
另外还有一些配置需要完成,但是基本的操作方法都差不多。如下图:
3、内容采集rules
请注意,上面的标签列表因人而异,只有标题和内容是通用的,这里我主要讲一下标题和内容的提取:
首先我们要进入采集object的文章content页面,然后使用和之前一样的方法获取源码部分。一般标题默认会在head标签中(如果你不知道head标签是什么,可以看我之前的文章前后端集成介绍):
所以填写固定标签:"title":"[参数]"!如下图:
表示读取title:标签后面的参数。请注意,这里的选择是常规提取,就是从特定的内容采集中提取我们需要的参数。大家注意下面截图中的数据处理。什么意思?
您可以在屏幕截图中看到。毕竟是别人的网站采集内容。难免别人会带一些自己的网站标志,我们在使用的时候自然不想使用别人的内容。其他网站的标记,这次我们需要通过数据处理功能自动替换一些我们要替换的内容。
可以看到里面有很多高级替换功能。如果要删除它,只需遵循删除规则即可。其他规则可以自己研究。
注意:数据处理可以同时添加多个规则,可以同时处理多个替换功能。
下面介绍内容采集,我们选择截取的内容区中的采集前后,是什么意思,即通过定义head和tail,中间的所有内容采集头尾:
上面第一个框中截取的代码是开头,第二个框中截取的代码是结尾。因为代码是折叠的,所以你可能看不到详细的代码,但是你不需要它。在浏览器的绿色和蓝色区域,可以看到整个文章内容区域实际上已经被拦截了。
填写开始字符串和结束字符串。那么在数据替换中,为了避免采集到达的信息以代码的形式从采集传给自己网站,我们需要做一些数据处理,使采集到达的内容为尽可能简单的文字!其中,HTML标签排除的应用可以排除一些我们不想采集到达的内容:
其他采集对象需要根据实际发布的项目为采集,一般规则类似!最后,测试采集并发布。会玩小电脑的小白可以自己摸一摸! (反正小编之前没碰过采集,有模型参考,不会马上知道!)
四、结语小编之前没玩过采集,第一次接触,感觉真的很方便,不知不觉就分享了!作为教程,它有一些不足,就是让大家有个基本的了解。如果想系统学习,可以找一些采集材料自学!最后一点,本文所展示的采集对象仅用于演示,织梦58网供大家理解。
请大家正确、合理、合法地使用采集功能。关注我,了解更多小白可以学习的网络知识。有什么问题可以留言咨询!
本文链接: