规则采集文章软件(【每日一题】优采云采集器采集规则(一)——优采云)
优采云 发布时间: 2022-03-19 22:16规则采集文章软件(【每日一题】优采云采集器采集规则(一)——优采云)
一.优采云采集器 流程图
流程图如下:
采集器使用过程中的重点是写采集规则
二.图解采集规则设置过程【重点解读】
1.设置采集规则第1步:
设置网站URL采集规则
点击添加——批量多页(如果是采集单页,选择单个网址)——输入网址,算术序列——添加完成
等差数列的值根据你要采集的列表页数变化,如果要采集5页,填5;
添加后可以点击测试网址采集
2.设置采集规则步骤2:
设置网站内容采集规则
随意在采集页面打开一篇文章文章进行测试,并更改标题和内容规则。
更改标题规则:查看文章源码-ctrl+f找到文章标题,将标题前后的代码填入标题规则;如图
更改内容规则:查看文章源码-ctrl+f找到文章内容的首末句,首句前填唯一码,后面填唯一码最后一句放到内容规则中间。如图所示
设置好规则后,就可以测试采集的效果了
3.设置采集规则第3步:
导出 采集 内容 - 只需保存
了解使用流程和重点,采集规则的一般设置流程需要在系统中梳理,发现问题,重点解决问题
三.按照采集器使用流程实际测试、使用、学习【系统解读】
1.官方软件下载
官方网站:
免费或付费版本。下载和使用
2.写入采集 规则
需要确认采集target网站URL生成规则,以及内容的具体地址
因此,需要编辑两组采集规则:URL 采集规则(待研究)和内容采集规则(已完成)
a.【采集测试对象】
西安工业科技学校:
陕西航天工人大学:
陕西建设技师学院:
…………。
湾。[采集遇到问题待解决]
问题一:确认文章内容的地址:
(1)很多网站为了防止采集页面显示的内容是从其他地址显示的,实际地址不在这个URL下。
需要使用“fiddler”抓包工具确认具体文章的地址
问题2:确认目标网站的URL:
起始 URL、分页 URL 和规则、结束 URL 等。
研究静态 URL 的生成规则,并用代码写出来。
问题3:保存的文件没有找到具体位置
您需要设置相应的位置。
c.【解决方法】
(1)通过实测,咨询官网客服,远程视频协助。
(如果2)还是不能解决,需要找一批采集目标网址,让官方代理写网址采集规则。
如果你看了上面的解释,你不会使用优采云采集器,或者你不明白这些设置是什么,它们的目的是什么。那你可以先去看一篇新手入门的文章文章。很多点都解释的很好,比官网还详细。明月SEO自己测算总结了一下。详情请至:初学者必看插画优采云采集器入门教程!(看完包会议)