如何自己定义网页样式?采集规则不难
优采云 发布时间: 2021-08-25 06:07如何自己定义网页样式?采集规则不难
其实写一个采集规则并不难。只要懂CSS语法,就不想去百度脑补了。一般你先采集list,然后通过list抓取详情页,每个list其实都有CSS规则控制样式。
我推荐一个网站来学习css选择器:
如果你了解选择器,你就会知道如何采集list 页面和详情页面。
当然,你也学会了如何自己定义网页样式。
以上是基础知识。下面我们解释采集工具给我们带来的便利。我是第一批使用采集的用户。当时还没有自动存储多重分类功能。
这个功能很容易使用。我想要采集一批资源,但是又不想存一个category,所以只需要输入我要存的categoryid,然后采集就会随机存入这些category里面。
当然,当你留空时填写类别id文本框,那么它只会存储在采集category下你选择的类别中。
另一个功能是分页:
估计有人直接输入页码,认为页面是采集。提示很清楚!
比如采集的分页是:和后面的第二个分页,你把“2”页码换成{#num},最后显示
记得用{#num}替换采集网址中的页码编号。
这样采集就不能分页数据了,否则会重复,然后你会问为什么没有采集把其他页面的数据翻过来。
最后一个功能是自动采集,用起来特别爽。
采集时间间隔的单位是毫秒,1秒=1000毫秒。
最好设置2小时自动采集一次,毕竟网站更新不是那么频繁。
auto采集很讲究,就是你上面填写的采集url地址的网页列表每天更新,也就是更新频繁的页面适合自动采集 ,你采集windows不要关掉,让它在设定的时间自动采集。
管理员添加:
规则文件的存放位置:static/caiji,存放在caiji文件夹中的txt文件规则。
这是360问答的采集规则,每行一个,有就写,没有就分开,因为这是最后的拆分。
最后到此就大功告成了,剩下的就是配置了,caiji文件夹下有个xml.php,打开:
你能看懂吗,名字和你的txt的键值对,注意‘,’是英文的!
然后下次刷新采集管理页面的网页时,您将能够看到新的采集规则。
好了,就说这么多,欢迎吐槽!