文章内容采集(2019独角兽企业重金招聘Python工程师标准(gt)(图))

优采云 发布时间: 2022-02-02 10:30

  文章内容采集(2019独角兽企业重金招聘Python工程师标准(gt)(图))

  2019独角兽企业招聘Python工程师标准>>>

  

  对于织梦(DEDEcms)的采集教程,很多网友都很头疼。确实,官方的教程太笼统了,什么都不说,换成网站你是什么?做不到,本教程是最详细的教程,让你一目了然!

  一、列表采集

  **第一步,**我们打开织梦后台点击采集——采集节点管理——添加新节点

  **第二步,**这里我们以采集normal文章为例,我们选择normal文章,然后确认

  **第三步,**进入采集的设置页面,填写节点名称。

  步骤 4. 打开您想要 采集 的 文章 列表页面。

  以这个网站为例,打开这个页面,

  右键-查看源文件找到目标页面编码,就在charset之后)

  **第5步,**填写页面的基本信息,填写完成后,如图

  **第6步,**填写列表URL获取规则查看文章列表第一页的地址。

  比较第二页的地址

  我们发现除了49_后面的数字之外它们是一样的,所以我们可以写

  (\*).html

  就是把1换成(*)因为只有2页,所以我们从1填到2。每页递增1,当然2-1...等于1

  到这里我们就完成了

  可能你的一些采集列表没有规则,只能手动指定列表URL,如图

  每行写一个页面地址

  **第七步,**填写文章网址匹配规则,返回文章列表页面

  右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。

  我们可以很容易地找到图中的“新闻列表”。从这里开始,下面就是 文章 列表,然后在 文章 列表的末尾寻找 HTML

  就是这样,一个容易找到的标志

  如果链接收录图像:

  此处不要将采集处理为缩略图,根据自己的需要选择

  二、内容页面采集

  **第 8 步,** 再次过滤区域 URL:

  (使用正则表达式)必须收录:(优先级高于后者)

  不能收录:打开源文件,我们可以清楚的看到文章链接都是以.html结尾的。因此,我们在必须收录的后面填写.html。如果有些列表比较麻烦,也可以在后面填写。不能收录

  点击保存设置进入下一步,可以看到我们得到的文章 URL

  看到这些都正确,我们保存信息,进入下一步设置内容字段获取规则

  看看文章有没有分页,输入一篇文章文章就可以了。. 我们看到这里的 文章 没有分页

  所以这里我们默认

  我们现在找文章标题等,输入一个文章,右键查看源文件

  看看这些

  根据源码填写

  第九步,如上填写文章内容的开始和结束,找到开始和结束标志。

  开始部分如图

  末端部分如图

  填写最后一张图片

  **第10步,**文章中要过滤什么内容可以写在过滤规则中,比如要过滤文章中的图片,

  选择常用规则,如图

  再次查看IMG,如图

  然后确认

  这样,我们对文本中的图片进行过滤

  **第十一步,**设置好后,点击保存设置和预览,如图

  这样的采集 规则已经写好了。这很简单。有些网站很难写,但需要付出更多的努力。

  我们点击保存开始采集——开始采集网页一会采集完成

  查看我们的 采集 到 文章

  **最后,**导出数据

  首先选择您要导入的列,然后在弹出的窗口中按“请选择”选择您要导入的列。发布选项通常是此处的默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项通常是“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词

  文章标题

  匹配规则:[内容]

  过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}

  三、采集规则补充(一)文本过滤和替换方法

  1.删除超链接,这是最常见的。

  {dede:trim replace=''}]*)>{/dede:trim}

  {dede:trim replace=''}{/dede:trim}

  如果这样填写,那么链接的文字也会被删除。

  {dede:trim replace=''}]*)>(.*){/dede:trim}

  2.过滤JS调用广告,比如GG广告,添加这个:

  {dede:trim replace=''}{/dede:trim}

  3.过滤 div 标签。

  这是非常重要的。如果过滤不干净,发布的 文章 可能会放错位置。目前遇到采集后出现错位的原因大部分都在这里。

  {dede:修剪替换=''}

  {/dede:trim}

  {dede:修剪替换=''}

  {/dede:trim}

  有时你需要像这样过滤:

  {dede:修剪替换=''}

  (.*)

  {/dede:trim}

  4.其他过滤规则可以根据以上规则推导出来。

  5.过滤器总结和关键字用法,常用。

  {dede:trim replace=''}{/dede:trim}

  6.简单替换。

  {dede:trim replace='replaced word'}要替换的单词{/dede:trim}

  7.删除源

  {dede:trim replace=''}src="([^"]*)"{/dede:trim}

  (二)内容页指定作者、出处

  指定要实现的值值:

  {dede:item field='writer' value='小君' isunit=''' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:项目}

  {dede:item field='source' value='军网' isunit='' isdown=''}

  {dede:match}{/dede:match}

  {dede:function}{/dede:function}

  {/dede:项目}

  (三)内容页面分页采集

  在“内容分页导航所在区域匹配规则:”中,填写规则,如*、*,然后选择“所有列出的分页列表”。

  遇到场景:如果选择了“上下分页表格或不完整的分页列表”,则列表页的所有文章内容写在一起

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线