采集文章内容(换个网站你什么都作不了,这个教程让你一看即会)

优采云 发布时间: 2022-01-06 05:00

  采集文章内容(换个网站你什么都作不了,这个教程让你一看即会)

  很多网友都为织梦(DEDEcms)的采集教程头疼。确实,官方教程太笼统了,没说什么。改成网站你什么都做不了,本教程是最详细的教程,马上看!html

  1、列表采集

  第一步,我们打开织梦后台,点击采集——采集节点管理——增加新节点正则表达式

  

  第二步,这里我们以采集normal文章为例,我们选择normal文章,然后肯定网站

  

  第三步,进入采集的设置页面,填写节点名称。编码

  第四步,打开你要采集的文章列表页。温泉

  以这个网站为例,打开这个页面,htm

  右键查看源文件,找到目标页面编码,就在charset后面)教程

  

  第五步,填写页面基本信息,填写后如图

  

  第六步,填写列表URL获取规则,查看文章列表第一页地址。ip

  源代码

  比较第二页的地址

  我们发现除了49_后面的数字是一样的,所以我们可以这样写

  (*).html

  就用(*)代替1吧,因为这里只有2页,所以我们从1填到2,每页加1,所以2-1...等于1。

  到这里我们完成了

  

  可能你的一些采集列表没有规则,所以你只需要手动指定列表URL即可,如图

  每行写一个页面地址

  

  第七步:填写文章 URL匹配规则,返回文章列表页面

  右键查看源文件找到区域开头的HTML,也就是找到文章列表开头的标记。

  

  我们可以很容易地找到图中的“新闻列表”。从这里开始,后面是文章列表,然后找到文章列表末尾的HTML

  就是这样,一个很容易找到的标志

  如果链接中有图片:

  不要将 采集 处理为缩略图。根据自己的需要选择。

  

  2、内容页采集

  第八步,重新筛选区域网站:

  (使用正则表达式)必须收录:(优先级高于后者)

  不能收录:打开源文件,我们可以清楚地看到文章链接以.html结尾。因此,我们必须包括它并填写它。如果遇到一些比较麻烦的list,也可以在后面填写Cannot contains

  点击保存设置进入下一步,可以看到我们得到的文章 URL

  看到这个就对了,我们保存信息,下一步设置内容字段获取规则

  看看文章有没有分页,输入一篇文章文章看看。. 我们可以看到 文章 没有分页

  所以我们在这里默许

  找到文章标题等,输入一篇文章文章,右键查看源文件

  看看这些

  根据源码填写

  

  

  

  第九步,填写文章内容的开头,结尾同上,找到开始和结束标志。

  开始部分如图

  末端部分如图所示

  最后填写如图

  

  

  

  第十步,要过滤文章中的任何内容,写在过滤规则中,比如过滤文章中的图片,

  选择常用规则,如图

  然后勾选IMG,如图

  那么肯定

  所以我们可以过滤文本中的图片

  

  

  第十一步,设置完成后,点击保存设置并预览,如图

  写了这样一个采集规则,很简单吧?有些网站很难写,但你需要更努力。

  我们点击保存,启动采集——启动采集网页一会儿,采集结束

  看看我们采集到达的文章

  

  

  

  最后,导出数据

  首先选择要导入的列,按“选择”,然后在弹出的窗口中选择要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入默认为30个。修改与否都没有关系。附加选项通常选择“排除重复标题”。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键字。

  文章标题

  匹配规则:【内容】

  过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}

  

  3、采集 规则补充(一)文本过滤替换方法

  1.删除超链接,这是最常用的。

  {dede:trim replace=''}]*)>{/dede:trim}

  {dede:trim replace=''}{/dede:trim}

  如果以这种方式填充,则将连接的文本也删除

  {dede:trim replace=''}]*)>(.*){/dede:trim}

  2.过滤JS来电广告,如GG广告,只需添加:

  {dede:trim replace=''}{/dede:trim}

  3.过滤 div 标签。

  这是非常重要的。如果过滤不干净,发布的文章页面可能会错位。目前遇到采集后出现错位的原因,大多是这个。

  {dede:trim replace=''}

  {/dede:修剪}

  {dede:trim replace=''}

  {/dede:修剪}

  有时需要像这样过滤:

  {dede:trim replace=''}

  (.*)

  {/dede:修剪}

  4.根据以上规则可以引入其他过滤规则。

  5.过滤摘要和关键字用法,经常用到。

  {dede:trim replace=''}{/dede:trim}

  6. 简单替换。

  {dede:trim replace='word after replacement'}要替换的单词{/dede:trim}

  7.删除源代码

  {dede:trim replace=''}src="([^"]*)"{/dede:trim}

  (二) 内容页指定作者,出处

  可以通过指定值来实现:

  {dede:item field='writer' value='小军' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  {dede:item field='source' value='Military Net' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:item}

  (三)内容页面分页采集

  在“内容分页导航所在区域的匹配规则:”中填写规则,例如,然后选择“所有列出的分页列表”。

  遇到场景:如果选择“上下页格式或分页列表不完整”,列表页的所有文章内容都会写到一起

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线