文章采集调用(换个网站你什么都做不了,这个教程让你一看即会)

优采云 发布时间: 2022-01-06 07:05

  文章采集调用(换个网站你什么都做不了,这个教程让你一看即会)

  很多网友对于织梦的采集教程(DEDEcms)感到头疼。确实,官方教程太笼统,没说什么。换个网站你是什么?不会啊,这个教程是最详细的教程了,赶紧看看吧!

  一、列表采集

  第一步,我们打开织梦后台,点击采集——采集节点管理——添加新节点

  

  第二步,这里我们以采集normal文章为例,我们选择normal文章,然后确认

  

  第三步,进入采集的设置页面,填写节点名称。

  第四步,打开你要采集的文章列表页。

  以这个网站为例,打开这个页面,

  右键查看源文件找到目标页面编码,就在charset之后)

  

  第五步,填写页面基本信息,填写后如图

  

  第六步,填写列表URL获取规则,查看文章列表第一页地址。

  比较第二页的地址

  我们发现除了49_后面的数字是一样的,所以我们可以这样写

  (*).html

  就用(*)代替1,因为只有2页,所以我们从1到2填,每页加1,当然2-1...等于1。

  到这里我们完成了

  

  可能你的一些采集列表没有规则,所以你只需要手动指定列表URL即可,如图

  每行写一个页面地址

  

  第七步:填写文章 URL匹配规则,返回文章列表页面

  右键查看源文件找到区域开头的HTML,也就是找到文章列表开头的标记。

  我们可以很容易地找到如图所示的“新闻列表”。从这里开始,后面是文章列表,然后找到文章列表末尾的HTML

  就是这样,一个很容易找到的标志

  如果链接收录图片:

  不要将采集处理成缩略图,这里根据自己的需要选择

  

  

  二、内容页采集

  第八步,重新筛选区域网站:

  (使用正则表达式)必须收录:(优先级高于后者)

  不能收录:打开源文件,我们可以清楚地看到文章链接以.html结尾,所以我们必须收录它并填写.html。如果遇到一些比较麻烦的list,也可以在后面填写Cannot contains

  点击保存设置进入下一步,可以看到我们得到的文章 URL

  看到这个是对的,我们保存信息,进入下一步设置内容字段获取规则

  看看文章有没有分页,随便输入一篇文章看看吧。. 我们看到文章中没有分页

  所以这里我们默认

  找到文章标题等,输入一篇文章文章,右键查看源文件

  看看这些

  根据源码填写

  

  

  

  

  第九步,填写文章内容的开头,结尾同上,找到开始和结束标志。

  开始部分如图

  末端部分如图所示

  最后填写如图

  

  

  

  第十步,要过滤文章中的什么内容,写在过滤规则中,比如过滤文章中的图片,

  选择常用规则,如图

  然后勾选IMG,如图

  然后确定

  这样我们过滤文本中的图片

  

  

  第十一步,设置完成后,点击保存设置并预览,如图

  写了这样一个采集规则,很简单吧?有些网站很难写,但你需要更努力。

  我们点击保存,启动采集-start 采集网页,采集就完成了

  看看我们采集到达了什么文章

  

  

  

  

  最后,导出数据

  首先选择要导入的列,在弹出的窗口中按“选择”选择需要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否都没有关系。附加选项一般选择“排除重复标题”。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键字。

  文章标题

  匹配规则:【内容】

  过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}

  

  来自百度

  三、采集 规则补充(一) 文本过滤和替换方法

  1.去除超链接,这个是最常用的。

  {dede:trim replace="}]*)>{/dede:trim}

  {dede:trim replace=”}{/dede:trim}

  如果这样填写,那么链接的文字也被去掉了

  {dede:trim replace=”}]*)>(.*){/dede:trim}

  2. 过滤JS电话广告,如GG广告,添加:

  {dede:trim replace=”}{/dede:trim}

  3.过滤 div 标签。

  这是非常重要的。如果过滤不干净,发布的 文章 页面可能会错位。目前遇到采集后出现错位的大部分原因都在这里。

  {dede:修剪替换=”}

  {/dede:修剪}

  {dede:修剪替换=”}

  {/dede:修剪}

  有时需要像这样过滤:

  {dede:修剪替换=”}

  (.*)

  {/dede:修剪}

  4.根据以上规则可以引入其他过滤规则。

  5.过滤摘要和关键字用法,经常用到。

  {dede:trim replace=”}{/dede:trim}

  6. 简单替换。

  {dede:trim replace='word after replacement'}要替换的单词{/dede:trim}

  7.删除源代码

  {dede:trim replace=""}src="([^"]*)"{/dede:trim}

  (二)内容页注明作者和出处

  可以通过指定 value 值来实现:

  {dede:item field='writer' value='小军' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  {dede:item field='source' value='Military Net' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  (三)内容页分页采集

  在“内容分页导航所在区域的匹配规则:”中填写规则,如

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线