DedeCMS 文章采集入门图文教程(推荐)
优采云 发布时间: 2020-08-25 13:46DedeCMS 文章采集入门图文教程(推荐)
中间:(*).html
末页:
复制一个分页地址,回到“新增采集节点”页面,选择“来源属性”为“批量生成列表网址”,把粘贴地址到“匹配网址”中,修改规律变化处为(*),“批量生成地址设置”处(*)输入1到172,这里的意思是生成出列表第一页到最后172页的所有地址。
测试一下,在弹出框中我们可以看见循环出172条地址记录,很顺利的就设置好了。有时候会遇到较难获取的列表,那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。
3.设置文章网址匹配规则
上面指定好了文章地址来源页,这一步就须要在那些页面中找出符合要求的文章地址页了。打开一个列表页面观察,左栏的方框中收录了我们须要的全部地址,这种情况分辨显著的页面,可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。
不过也可以使用其他方式。把滑鼠移到各处链接地址,观察浏览器左下角显示的完整地址,我们须要的地址都收录“PHP_jiaocheng/20”,那我们把它填写到“必须收录”中。
两种方式都还能过滤出地址,碰上复杂页面,可以配合上去使用,加上正则,几乎没有筛选不出的地址,附(图5.1)对照。最后确定,进入下一步“网页内容获取规则”。
(图5.1)
生活不易,码农辛苦