解读:优采云 采集规则写法介绍

优采云 发布时间: 2022-11-30 09:32

  解读:优采云

采集规则写法介绍

  一个大型的信息网站,渠道很多,网站数据也很多。不可能每一条数据都由站长一个一个发过来!这时候为了节省人力物力,采集器就诞生了(做优化的朋友,不推荐大家使用)!接下来笔者使用织梦管理系统自带的采集器采集一个网站的数据,为大家展示一下采集规则是怎么写的!

  工具/材料第一步:新建文章集合节点

  登录织梦管理后台,依次点击

  采集

>>采集节点管理>>添加新节点>>选择常用文章>>确定

  第二步:填写采集

列表规则

  节点名称:随便(注意一定要能分得清,因为如果节点太多,可能会把自己弄糊涂)

  目标页面代码:看目标页面的代码(比如我采集的网站代码是GB2312)

  

" />

  匹配URL:进入采集

目标列表页面,查看其列表规则!比如很多网站的列表首页和其他内页差别很大,所以我一般不收目标列表的首页!比如我演示的网站的列表规则是第一页设置一个默认首页,后面的实际路径是看不到的,如图:

  所以,我们只能从第二页开始(虽然可以找到第一页,但是很多网站根本就没有第一页,这里就不说怎么找第一页了),!让我们来比较采集

目标页面的第二页和第三页!如图所示:

  可以看到这两个页面都是有规律的递增的,第二个页面就是list_2!第三页是list_3!所以,我们将匹配的 URL 写成

  上面的(*)代表2个,或者3个,或者4个,或者更多的列表页!而在第三个横条上,我从2到5写了(*),意思是从2到5的增加,每次+1,匹配到(*)而不是(*)!

  区域起始HTML:采集目标列表页面开源代码!在待采集的文章标题前找到一段在本页面是唯一的,也是其他待采集页面上唯一的HTML标签!

  区域末尾HTML:在获取目标列表页面打开源码!在要采集的文章标题附近找到一个html标签,这个标签在本页是唯一的,在其他要采集的页面也是唯一的!

  

" />

  其他地方,我们还没有用到,不用担心!这样,列表页的规则就写好了!下图是我写的列表规则的截图!

  写好后点击保存信息,进入下一步!如果规则写对了,那么会出现一个URL获取规则测试,内容为:如下图

  按下一步!输入填写采集

内容规则

  第二步:填写采集

内容规则

  文章标题:找文章标题前后两个标签,可以识别标题!我采集

的网站文章标题前后唯一的标签是...,所以写成[content]。

  文章内容:找到文章内容前后两个标签,即可识别内容!我采集

的网站文章内容前后唯一的标签是

  ……

  汇总:蚁小二产品介绍明细

  管理多媒体平台账号和内容,快速分发

  加入雇主团队或聘请自己的团队,进行内容交付和账户运营(分发文章)

  MCN机构

  用软件降低人工成本,提高运营效率,解决员工离职账户信息容易泄露的问题

  利用*敏*感*词*员工分发内容创作任务和授权账号操作

  政媒运营部

  采用私有化部署,保障数据安全,实现内容传播数字化

  全职/*敏*感*词*员工下发内容创作和代理运营任务

  教育机构

  减少分发运营时间,结合数据分析提高用户咨询转化率,持续优化内容方向

  全职/*敏*感*词*员工发布内容创作和引流任务

  新媒体代理运营

  使用软件降低人工成本,提高运营效率,进行内容(图片,视频)交易,代销交易增加收入

  通过数据分析提高内容传播效率

  企业新媒体部

  采用一键分发、账号管理、数据统计,实现企业内容传播数字化,提供API

  全职/*敏*感*词*员工发布内容创作和品牌曝光任务

  五、一小儿产品的核心功能

  多账户管理

  添加单个账户和批量添加多个账户,实现快速登录授权,改善账户登录,解决账户杂乱,清晰对比各账户数据等效率问题

  

" />

  集团管理

  多运营账号统一管理,多平台账号消息一次整合,实时同步,即使多平台发送消息也不会混淆

  批量添加账号

  批量导入多个操作账号,快速高效的登录操作

  多运营商平台管理

  清晰查看每个运营商管理的账户数量和账户明细的实时数据

  一键检测登录状态

  根据平台、群组、运营商等,一键检测账号登录状态

  原装质检

  让您的文章更安全,内容更有价值,流量更大

  标签检测:自动从文章中提取标签

  内容检测:内容违规检测,大数据计算权重

  标题检测:标题情感描述、一般禁用词、广告垃圾和政治信息检测

  原创性检测:检测文章的综合判断得分

  文本纠错:文字、语法、标点符号纠错,文本错别字自动检查提示

  智能摘要:对海量内容文本进行语义分析和快速摘要,快速形成热点摘要和内容事件盘点手稿

  一键发布:多任务快速分发

  成功发布一篇文章只需要1-3秒。自媒体号多,效率提升一百倍。

  多平台多格式:图文、横屏、竖屏,内容类型清晰,主流平台齐全,即使多平台、多格式同时发布也不会混乱

  内容管理

  批量/快速创建并导入专属云盘,统一管理图文、横屏、竖屏、音频等媒体,让内容流转、审计、数据表现可控、可追溯,运营商专属云内容管理库

  

" />

  一键多样化上传内容

  导入WORD,url链接,横版视频,竖版视频,分类上传管理,内容类型清晰,即使有多个内容也不会混淆

  清晰的内容管理

  上传文章,自定义标签,发布状态,内容状态,同步状态,内容状态数据实时同步

  统计数据

  数据是一切分析的前提

  支持按内容、按部门、按平台、按账号多维度筛选查询。数据更新延迟不超过4小时,数据准确性高。数据表达之美赋能内容创作,提升管理效率。

  平台数据

  自定义筛选查看、平台数、账号数、浏览量、推荐量、阅读/推荐比、收益定时抓取每期数据

  五维图(内容展示、原创能力、主动表达、领域聚焦)

  员工资料

  统计员工账号数、收入、浏览量、推荐、粉丝、点赞数、评论数、分享数 管理统计 员工每日发帖

  统计数据

  帐户数据

  管理统计各平台账号、运营商、总收入、总浏览量、总推荐量,实时观察员工账号运营数据

  内容统计:图文总数、视频总数、浏览量等,随时随地查看统计图文视频内容的发布数据

  Cloud Distribution:Cloud Distribution基于浏览器插件,提供接口连接企业自有CMS系统。在征得用户同意的情况下,获取用户的登录状态信息,帮助用户实现跨平台多账号管理,同时以此为基础实现多平台一键分发功能,提供插件和API接口

  使命:让内容运营更高效,开启高效运营时代

  愿景:让各行各业的人享受高效运作的乐趣

  价值观:做实品,致力创造,专注服务

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线