无需规则自动采集( 梦搏网络一键采集不需要写采集规则,系统自动识别文章正文)
优采云 发布时间: 2021-08-29 22:07无需规则自动采集(
梦搏网络一键采集不需要写采集规则,系统自动识别文章正文)
织梦输入网址采集单网页功能发布无需写采集rule一键采集
萌博网一键采集不需要写采集规则,系统自动识别文章正文内容和标题,现在已经集成到织梦cms,使用织梦 cms站好在可以完全替代织梦background自带的“输入URL采集单个网页>>”功能。首先分析对比织梦系统自带的“输入URL采集单个网页>>”。一键采集和萌博网有什么区别?
1、织梦自己的“输入URL采集单个网页>>”需要在采集previous采集网站采集规则中,如果采集webpage不同布局无法共享。这导致采集网页非常麻烦。很多站长不写规则,所以不能用采集这个单网页功能。需要编辑和发布文章。复制标题,复制内容后手动发布。
2、梦搏网络 一键采集 主要功能是完善织梦自带的“输入网址采集单个网页>>”。改进后输入网址到采集即可,支持95%以上的网页,尤其是文章类型的网站,不用写采集规则,不用在采集之前写规则,什么都有由系统自动完成。 采集的字段包括:标题、缩略图、*敏*感*词*描述和文章正文内容。
我们来看看如何修改。只需在系统的两个文件中添加几行代码,不影响以后的系统升级。
打开织梦cms的后台目录文章发布文件,默认为:dede/aticle_add.php和dede/templets/aticle_add.htm
dede/aticle_add.php 添加如下代码
/获取文章最大id以确定当前权重
$maxWright = $dsql->GetOne("SELECT COUNT(*) AS cc FROM #@__archives");
//新增加梦搏网络一键采集
$url="http://api.sinmeng.net/api/caiji/caiji.php?url={$_GET[url]}{$posturl}&key=你的key";
$caiji=json_decode(file_get_contents($url));
$caiji_lead_image_url= mb_convert_encoding($caiji->{'lead_image_url'},'gbk','utf-8');//ͼƬ
$caiji_word_count= mb_convert_encoding($caiji->{'word_count'},'gbk','utf-8');//字数
$caiji_title= mb_convert_encoding($caiji->{'title'},'gbk','utf-8');//标题
$caiji_content= mb_convert_encoding($caiji->{'content'},'gbk','utf-8');//内容
$caiji_description=preg_replace("//si","",$caiji_content);//过滤html标签
$caiji_description = mb_substr($caiji_description,0,80,'gbk');//简介
//
include DedeInclude("templets/article_add.htm");
dede/templets/aticle_add.htm文件修改如下代码
<p> 文章标题: