如何自己定义网页样式?采集规则不难

优采云 发布时间: 2021-08-25 06:07

  如何自己定义网页样式?采集规则不难

  其实写一个采集规则并不难。只要懂CSS语法,就不想去百度脑补了。一般你先采集list,然后通过list抓取详情页,每个list其实都有CSS规则控制样式。

  我推荐一个网站来学习css选择器:

  

  如果你了解选择器,你就会知道如何采集list 页面和详情页面。

  当然,你也学会了如何自己定义网页样式。

  以上是基础知识。下面我们解释采集工具给我们带来的便利。我是第一批使用采集的用户。当时还没有自动存储多重分类功能。

  

  这个功能很容易使用。我想要采集一批资源,但是又不想存一个category,所以只需要输入我要存的categoryid,然后采集就会随机存入这些category里面。

  当然,当你留空时填写类别id文本框,那么它只会存储在采集category下你选择的类别中。

  另一个功能是分页:

  估计有人直接输入页码,认为页面是采集。提示很清楚!

  比如采集的分页是:和后面的第二个分页,你把“2”页码换成{#num},最后显示

  记得用{#num}替换采集网址中的页码编号。

  这样采集就不能分页数据了,否则会重复,然后你会问为什么没有采集把其他页面的数据翻过来。

  最后一个功能是自动采集,用起来特别爽。

  采集时间间隔的单位是毫秒,1秒=1000毫秒。

  最好设置2小时自动采集一次,毕竟网站更新不是那么频繁。

  auto采集很讲究,就是你上面填写的采集url地址的网页列表每天更新,也就是更新频繁的页面适合自动采集 ,你采集windows不要关掉,让它在设定的时间自动采集。

  管理员添加:

  规则文件的存放位置:static/caiji,存放在caiji文件夹中的txt文件规则。

  

  这是360问答的采集规则,每行一个,有就写,没有就分开,因为这是最后的拆分。

  最后到此就大功告成了,剩下的就是配置了,caiji文件夹下有个xml.php,打开:

  

  你能看懂吗,名字和你的txt的键值对,注意‘,’是英文的!

  然后下次刷新采集管理页面的网页时,您将能够看到新的采集规则。

  好了,就说这么多,欢迎吐槽!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线