文章内容采集(2019独角兽企业重金招聘Python工程师标准(gt)(图))
优采云 发布时间: 2022-02-02 10:30文章内容采集(2019独角兽企业重金招聘Python工程师标准(gt)(图))
2019独角兽企业招聘Python工程师标准>>>
对于织梦(DEDEcms)的采集教程,很多网友都很头疼。确实,官方的教程太笼统了,什么都不说,换成网站你是什么?做不到,本教程是最详细的教程,让你一目了然!
一、列表采集
**第一步,**我们打开织梦后台点击采集——采集节点管理——添加新节点
**第二步,**这里我们以采集normal文章为例,我们选择normal文章,然后确认
**第三步,**进入采集的设置页面,填写节点名称。
步骤 4. 打开您想要 采集 的 文章 列表页面。
以这个网站为例,打开这个页面,
右键-查看源文件找到目标页面编码,就在charset之后)
**第5步,**填写页面的基本信息,填写完成后,如图
**第6步,**填写列表URL获取规则查看文章列表第一页的地址。
比较第二页的地址
我们发现除了49_后面的数字之外它们是一样的,所以我们可以写
(\*).html
就是把1换成(*)因为只有2页,所以我们从1填到2。每页递增1,当然2-1...等于1
到这里我们就完成了
可能你的一些采集列表没有规则,只能手动指定列表URL,如图
每行写一个页面地址
**第七步,**填写文章网址匹配规则,返回文章列表页面
右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。
我们可以很容易地找到图中的“新闻列表”。从这里开始,下面就是 文章 列表,然后在 文章 列表的末尾寻找 HTML
就是这样,一个容易找到的标志
如果链接收录图像:
此处不要将采集处理为缩略图,根据自己的需要选择
二、内容页面采集
**第 8 步,** 再次过滤区域 URL:
(使用正则表达式)必须收录:(优先级高于后者)
不能收录:打开源文件,我们可以清楚的看到文章链接都是以.html结尾的。因此,我们在必须收录的后面填写.html。如果有些列表比较麻烦,也可以在后面填写。不能收录
点击保存设置进入下一步,可以看到我们得到的文章 URL
看到这些都正确,我们保存信息,进入下一步设置内容字段获取规则
看看文章有没有分页,输入一篇文章文章就可以了。. 我们看到这里的 文章 没有分页
所以这里我们默认
我们现在找文章标题等,输入一个文章,右键查看源文件
看看这些
根据源码填写
第九步,如上填写文章内容的开始和结束,找到开始和结束标志。
开始部分如图
末端部分如图
填写最后一张图片
**第10步,**文章中要过滤什么内容可以写在过滤规则中,比如要过滤文章中的图片,
选择常用规则,如图
再次查看IMG,如图
然后确认
这样,我们对文本中的图片进行过滤
**第十一步,**设置好后,点击保存设置和预览,如图
这样的采集 规则已经写好了。这很简单。有些网站很难写,但需要付出更多的努力。
我们点击保存开始采集——开始采集网页一会采集完成
查看我们的 采集 到 文章
**最后,**导出数据
首先选择您要导入的列,然后在弹出的窗口中按“请选择”选择您要导入的列。发布选项通常是此处的默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项通常是“排除重复标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词。
文章标题
匹配规则:[内容]
过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}
三、采集规则补充(一)文本过滤和替换方法
1.删除超链接,这是最常见的。
{dede:trim replace=''}]*)>{/dede:trim}
{dede:trim replace=''}{/dede:trim}
如果这样填写,那么链接的文字也会被删除。
{dede:trim replace=''}]*)>(.*){/dede:trim}
2.过滤JS调用广告,比如GG广告,添加这个:
{dede:trim replace=''}{/dede:trim}
3.过滤 div 标签。
这是非常重要的。如果过滤不干净,发布的 文章 可能会放错位置。目前遇到采集后出现错位的原因大部分都在这里。
{dede:修剪替换=''}
{/dede:trim}
{dede:修剪替换=''}
{/dede:trim}
有时你需要像这样过滤:
{dede:修剪替换=''}
(.*)
{/dede:trim}
4.其他过滤规则可以根据以上规则推导出来。
5.过滤器总结和关键字用法,常用。
{dede:trim replace=''}{/dede:trim}
6.简单替换。
{dede:trim replace='replaced word'}要替换的单词{/dede:trim}
7.删除源
{dede:trim replace=''}src="([^"]*)"{/dede:trim}
(二)内容页指定作者、出处
指定要实现的值值:
{dede:item field='writer' value='小君' isunit=''' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:项目}
{dede:item field='source' value='军网' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:项目}
(三)内容页面分页采集
在“内容分页导航所在区域匹配规则:”中,填写规则,如*、*,然后选择“所有列出的分页列表”。
遇到场景:如果选择了“上下分页表格或不完整的分页列表”,则列表页的所有文章内容写在一起
转载于: