解读:优采云 采集规则写法介绍
优采云 发布时间: 2022-11-30 09:32解读:优采云
采集规则写法介绍
一个大型的信息网站,渠道很多,网站数据也很多。不可能每一条数据都由站长一个一个发过来!这时候为了节省人力物力,采集器就诞生了(做优化的朋友,不推荐大家使用)!接下来笔者使用织梦管理系统自带的采集器采集一个网站的数据,为大家展示一下采集规则是怎么写的!
工具/材料第一步:新建文章集合节点
登录织梦管理后台,依次点击
采集
>>采集节点管理>>添加新节点>>选择常用文章>>确定
第二步:填写采集
列表规则
节点名称:随便(注意一定要能分得清,因为如果节点太多,可能会把自己弄糊涂)
目标页面代码:看目标页面的代码(比如我采集的网站代码是GB2312)
" />
匹配URL:进入采集
目标列表页面,查看其列表规则!比如很多网站的列表首页和其他内页差别很大,所以我一般不收目标列表的首页!比如我演示的网站的列表规则是第一页设置一个默认首页,后面的实际路径是看不到的,如图:
所以,我们只能从第二页开始(虽然可以找到第一页,但是很多网站根本就没有第一页,这里就不说怎么找第一页了),!让我们来比较采集
目标页面的第二页和第三页!如图所示:
可以看到这两个页面都是有规律的递增的,第二个页面就是list_2!第三页是list_3!所以,我们将匹配的 URL 写成
上面的(*)代表2个,或者3个,或者4个,或者更多的列表页!而在第三个横条上,我从2到5写了(*),意思是从2到5的增加,每次+1,匹配到(*)而不是(*)!
区域起始HTML:采集目标列表页面开源代码!在待采集的文章标题前找到一段在本页面是唯一的,也是其他待采集页面上唯一的HTML标签!
区域末尾HTML:在获取目标列表页面打开源码!在要采集的文章标题附近找到一个html标签,这个标签在本页是唯一的,在其他要采集的页面也是唯一的!
" />
其他地方,我们还没有用到,不用担心!这样,列表页的规则就写好了!下图是我写的列表规则的截图!
写好后点击保存信息,进入下一步!如果规则写对了,那么会出现一个URL获取规则测试,内容为:如下图
按下一步!输入填写采集
内容规则
第二步:填写采集
内容规则
文章标题:找文章标题前后两个标签,可以识别标题!我采集
的网站文章标题前后唯一的标签是...,所以写成[content]。
文章内容:找到文章内容前后两个标签,即可识别内容!我采集
的网站文章内容前后唯一的标签是
……
汇总:蚁小二产品介绍明细
管理多媒体平台账号和内容,快速分发
加入雇主团队或聘请自己的团队,进行内容交付和账户运营(分发文章)
MCN机构
用软件降低人工成本,提高运营效率,解决员工离职账户信息容易泄露的问题
利用*敏*感*词*员工分发内容创作任务和授权账号操作
政媒运营部
采用私有化部署,保障数据安全,实现内容传播数字化
全职/*敏*感*词*员工下发内容创作和代理运营任务
教育机构
减少分发运营时间,结合数据分析提高用户咨询转化率,持续优化内容方向
全职/*敏*感*词*员工发布内容创作和引流任务
新媒体代理运营
使用软件降低人工成本,提高运营效率,进行内容(图片,视频)交易,代销交易增加收入
通过数据分析提高内容传播效率
企业新媒体部
采用一键分发、账号管理、数据统计,实现企业内容传播数字化,提供API
全职/*敏*感*词*员工发布内容创作和品牌曝光任务
五、一小儿产品的核心功能
多账户管理
添加单个账户和批量添加多个账户,实现快速登录授权,改善账户登录,解决账户杂乱,清晰对比各账户数据等效率问题
" />
集团管理
多运营账号统一管理,多平台账号消息一次整合,实时同步,即使多平台发送消息也不会混淆
批量添加账号
批量导入多个操作账号,快速高效的登录操作
多运营商平台管理
清晰查看每个运营商管理的账户数量和账户明细的实时数据
一键检测登录状态
根据平台、群组、运营商等,一键检测账号登录状态
原装质检
让您的文章更安全,内容更有价值,流量更大
标签检测:自动从文章中提取标签
内容检测:内容违规检测,大数据计算权重
标题检测:标题情感描述、一般禁用词、广告垃圾和政治信息检测
原创性检测:检测文章的综合判断得分
文本纠错:文字、语法、标点符号纠错,文本错别字自动检查提示
智能摘要:对海量内容文本进行语义分析和快速摘要,快速形成热点摘要和内容事件盘点手稿
一键发布:多任务快速分发
成功发布一篇文章只需要1-3秒。自媒体号多,效率提升一百倍。
多平台多格式:图文、横屏、竖屏,内容类型清晰,主流平台齐全,即使多平台、多格式同时发布也不会混乱
内容管理
批量/快速创建并导入专属云盘,统一管理图文、横屏、竖屏、音频等媒体,让内容流转、审计、数据表现可控、可追溯,运营商专属云内容管理库
" />
一键多样化上传内容
导入WORD,url链接,横版视频,竖版视频,分类上传管理,内容类型清晰,即使有多个内容也不会混淆
清晰的内容管理
上传文章,自定义标签,发布状态,内容状态,同步状态,内容状态数据实时同步
统计数据
数据是一切分析的前提
支持按内容、按部门、按平台、按账号多维度筛选查询。数据更新延迟不超过4小时,数据准确性高。数据表达之美赋能内容创作,提升管理效率。
平台数据
自定义筛选查看、平台数、账号数、浏览量、推荐量、阅读/推荐比、收益定时抓取每期数据
五维图(内容展示、原创能力、主动表达、领域聚焦)
员工资料
统计员工账号数、收入、浏览量、推荐、粉丝、点赞数、评论数、分享数 管理统计 员工每日发帖
统计数据
帐户数据
管理统计各平台账号、运营商、总收入、总浏览量、总推荐量,实时观察员工账号运营数据
内容统计:图文总数、视频总数、浏览量等,随时随地查看统计图文视频内容的发布数据
Cloud Distribution:Cloud Distribution基于浏览器插件,提供接口连接企业自有CMS系统。在征得用户同意的情况下,获取用户的登录状态信息,帮助用户实现跨平台多账号管理,同时以此为基础实现多平台一键分发功能,提供插件和API接口
使命:让内容运营更高效,开启高效运营时代
愿景:让各行各业的人享受高效运作的乐趣
价值观:做实品,致力创造,专注服务