文章采集完(换个网站你什么都做不了,这个教程让你一看即会)

优采云 发布时间: 2022-02-06 13:04

  文章采集完(换个网站你什么都做不了,这个教程让你一看即会)

  对于织梦(DEDEcms)的采集教程,很多网友都很头疼。确实,官方的教程太笼统了,什么都不说,换成网站你是什么?做不到,本教程是最详细的教程,让你一目了然!

  一、列表采集

  第一步,我们打开织梦后台点击采集——采集节点管理——添加新节点

  

  第二步,这里我们以采集普通文章为例,我们选择普通文章,然后确认

  

  第三步,进入采集的设置页面,填写节点名称。

  步骤 4. 打开您想要 采集 的 文章 列表页面。

  以这个网站为例,打开这个页面,

  右键-查看源文件找到目标页面编码,就在charset之后)

  

  第五步,填写页面的基本信息,填写后如图

  

  第六步:填写列表URL,获取规则可以看到文章列表首页的地址。

  比较第二页的地址

  我们发现除了49_后面的数字之外它们是一样的,所以我们可以写

  (*).html

  就是把1换成(*),因为这里只有2页,所以我们从1填到2。每页加1。当然2-1...等于1。

  到这里我们就完成了

  

  可能你的一些采集列表没有规则,只能手动指定列表URL,如图

  每行写一个页面地址

  

  第七步,填写文章 URL匹配规则,回到文章列表页面

  右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。

  我们可以很容易地找到图中的“新闻列表”。从这里开始,下面就是 文章 列表,然后在 文章 列表的末尾寻找 HTML

  就是这样,一个容易找到的标志

  如果链接收录图像:

  此处不要将采集处理为缩略图,根据自己的需要选择

  

  

  二、内容页面采集

  第八步,再次过滤区域URL:

  (使用正则表达式)必须收录:(优先级高于后者)

  不能收录:打开源文件,我们可以清楚的看到文章链接都是以.html结尾的。因此,我们在必须收录的后面填写.html。如果有些列表比较麻烦,也可以在后面填写。不能收录

  点击保存设置进入下一步,可以看到我们得到的文章 URL

  看到这些都正确,我们保存信息,进入下一步设置内容字段获取规则

  看看文章有没有分页,输入一篇文章文章就可以了。. 我们看到这里的 文章 没有分页

  所以这里我们默认

  我们现在找文章标题等,输入一个文章,右键查看源文件

  看看这些

  根据源码填写

  

  

  

  

  第九步,如上填写文章内容的开始和结束,找到开始和结束标志。

  开始部分如图

  末端部分如图

  填写最后一张图片

  

  

  

  步骤 10. 在过滤规则中的 文章 中写下您要过滤的内容。比如要过滤文章中的图片,

  选择常用规则,如图

  再次查看IMG,如图

  然后确认

  这样,我们对文本中的图片进行过滤

  

  

  第十一步,设置完成后,点击保存设置和预览,如图

  这样的采集 规则已经写好了。这很简单。有些网站很难写,但需要付出更多的努力。

  我们点击保存开始采集——开始采集网页一会采集完成

  查看我们的 采集 到 文章

  

  

  

  

  最后,导出数据

  首先选择您要导入的列,然后在弹出的窗口中按“请选择”选择您要导入的列。发布选项通常是此处的默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项通常是“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词

  文章标题

  匹配规则:[内容]

  过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}

  

  来自百度

  三、采集规则补充(一)文本过滤和替换方法

  1.删除超链接,这是最常见的。

  {dede:trim replace=”}]*)>{/dede:trim}

  {dede:trim replace=”}{/dede:trim}

  如果这样填写,那么链接的文字也会被删除。

  {dede:trim replace=”}]*)>(.*){/dede:trim}

  2.过滤JS调用广告,比如GG广告,加上这个:

  {dede:trim replace=”}{/dede:trim}

  3.过滤 div 标签。

  这是非常重要的。如果过滤不干净,发布的 文章 可能会放错位置。目前遇到采集后出现错位的原因大部分都在这里。

  {dede:修剪替换=”}

  {/dede:trim}

  {dede:修剪替换=”}

  {/dede:trim}

  有时你需要像这样过滤:

  {dede:修剪替换=”}

  (.*)

  {/dede:trim}

  4.其他过滤规则可以根据以上规则推导出来。

  5.过滤器总结和关键字用法,常用。

  {dede:trim replace=”}{/dede:trim}

  6.简单替换。

  {dede:trim replace='replaced word'}要替换的单词{/dede:trim}

  7.删除源

  {dede:trim replace=""}src="([^"]*)"{/dede:trim}

  (二)内容页指定作者、出处

  指定要实现的值值:

  {dede:item field='writer' value='小君' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:项目}

  {dede:item field='source' value='军网' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:项目}

  (三)内容页面分页采集

  在“内容页面导航所在区域匹配规则:”中,填写规则,如

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线