无需规则自动采集( 梦搏网络一键采集不需要写采集规则,系统自动识别文章正文)

优采云 发布时间: 2021-08-29 22:07

  无需规则自动采集(

梦搏网络一键采集不需要写采集规则,系统自动识别文章正文)

  织梦输入网址采集单网页功能发布无需写采集rule一键采集

  萌博网一键采集不需要写采集规则,系统自动识别文章正文内容和标题,现在已经集成到织梦cms,使用织梦 cms站好在可以完全替代织梦background自带的“输入URL采集单个网页>>”功能。首先分析对比织梦系统自带的“输入URL采集单个网页>>”。一键采集和萌博网有什么区别?

  1、织梦自己的“输入URL采集单个网页>>”需要在采集previous采集网站采集规则中,如果采集webpage不同布局无法共享。这导致采集网页非常麻烦。很多站长不写规则,所以不能用采集这个单网页功能。需要编辑和发布文章。复制标题,复制内容后手动发布。

  2、梦搏网络 一键采集 主要功能是完善织梦自带的“输入网址采集单个网页>>”。改进后输入网址到采集即可,支持95%以上的网页,尤其是文章类型的网站,不用写采集规则,不用在采集之前写规则,什么都有由系统自动完成。 采集的字段包括:标题、缩略图、*敏*感*词*描述和文章正文内容。

  我们来看看如何修改。只需在系统的两个文件中添加几行代码,不影响以后的系统升级。

  打开织梦cms的后台目录文章发布文件,默认为:dede/aticle_add.php和dede/templets/aticle_add.htm

  dede/aticle_add.php 添加如下代码

  /获取文章最大id以确定当前权重

$maxWright = $dsql->GetOne("SELECT COUNT(*) AS cc FROM #@__archives");

//新增加梦搏网络一键采集

$url="http://api.sinmeng.net/api/caiji/caiji.php?url={$_GET[url]}{$posturl}&key=你的key";

$caiji=json_decode(file_get_contents($url));

$caiji_lead_image_url= mb_convert_encoding($caiji->{'lead_image_url'},'gbk','utf-8');//ͼƬ

$caiji_word_count= mb_convert_encoding($caiji->{'word_count'},'gbk','utf-8');//字数

$caiji_title= mb_convert_encoding($caiji->{'title'},'gbk','utf-8');//标题

$caiji_content= mb_convert_encoding($caiji->{'content'},'gbk','utf-8');//内容

$caiji_description=preg_replace("//si","",$caiji_content);//过滤html标签

$caiji_description = mb_substr($caiji_description,0,80,'gbk');//简介

//

include DedeInclude("templets/article_add.htm");

  dede/templets/aticle_add.htm文件修改如下代码

<p> 文章标题:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线