采集文章内容(换个网站你什么都作不了,这个教程让你一看即会)
优采云 发布时间: 2022-01-06 05:00采集文章内容(换个网站你什么都作不了,这个教程让你一看即会)
很多网友都为织梦(DEDEcms)的采集教程头疼。确实,官方教程太笼统了,没说什么。改成网站你什么都做不了,本教程是最详细的教程,马上看!html
1、列表采集
第一步,我们打开织梦后台,点击采集——采集节点管理——增加新节点正则表达式
第二步,这里我们以采集normal文章为例,我们选择normal文章,然后肯定网站
第三步,进入采集的设置页面,填写节点名称。编码
第四步,打开你要采集的文章列表页。温泉
以这个网站为例,打开这个页面,htm
右键查看源文件,找到目标页面编码,就在charset后面)教程
第五步,填写页面基本信息,填写后如图
第六步,填写列表URL获取规则,查看文章列表第一页地址。ip
源代码
比较第二页的地址
我们发现除了49_后面的数字是一样的,所以我们可以这样写
(*).html
就用(*)代替1吧,因为这里只有2页,所以我们从1填到2,每页加1,所以2-1...等于1。
到这里我们完成了
可能你的一些采集列表没有规则,所以你只需要手动指定列表URL即可,如图
每行写一个页面地址
第七步:填写文章 URL匹配规则,返回文章列表页面
右键查看源文件找到区域开头的HTML,也就是找到文章列表开头的标记。
我们可以很容易地找到图中的“新闻列表”。从这里开始,后面是文章列表,然后找到文章列表末尾的HTML
就是这样,一个很容易找到的标志
如果链接中有图片:
不要将 采集 处理为缩略图。根据自己的需要选择。
2、内容页采集
第八步,重新筛选区域网站:
(使用正则表达式)必须收录:(优先级高于后者)
不能收录:打开源文件,我们可以清楚地看到文章链接以.html结尾。因此,我们必须包括它并填写它。如果遇到一些比较麻烦的list,也可以在后面填写Cannot contains
点击保存设置进入下一步,可以看到我们得到的文章 URL
看到这个就对了,我们保存信息,下一步设置内容字段获取规则
看看文章有没有分页,输入一篇文章文章看看。. 我们可以看到 文章 没有分页
所以我们在这里默许
找到文章标题等,输入一篇文章文章,右键查看源文件
看看这些
根据源码填写
第九步,填写文章内容的开头,结尾同上,找到开始和结束标志。
开始部分如图
末端部分如图所示
最后填写如图
第十步,要过滤文章中的任何内容,写在过滤规则中,比如过滤文章中的图片,
选择常用规则,如图
然后勾选IMG,如图
那么肯定
所以我们可以过滤文本中的图片
第十一步,设置完成后,点击保存设置并预览,如图
写了这样一个采集规则,很简单吧?有些网站很难写,但你需要更努力。
我们点击保存,启动采集——启动采集网页一会儿,采集结束
看看我们采集到达的文章
最后,导出数据
首先选择要导入的列,按“选择”,然后在弹出的窗口中选择要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入默认为30个。修改与否都没有关系。附加选项通常选择“排除重复标题”。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键字。
文章标题
匹配规则:【内容】
过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}
3、采集 规则补充(一)文本过滤替换方法
1.删除超链接,这是最常用的。
{dede:trim replace=''}]*)>{/dede:trim}
{dede:trim replace=''}{/dede:trim}
如果以这种方式填充,则将连接的文本也删除
{dede:trim replace=''}]*)>(.*){/dede:trim}
2.过滤JS来电广告,如GG广告,只需添加:
{dede:trim replace=''}{/dede:trim}
3.过滤 div 标签。
这是非常重要的。如果过滤不干净,发布的文章页面可能会错位。目前遇到采集后出现错位的原因,大多是这个。
{dede:trim replace=''}
{/dede:修剪}
{dede:trim replace=''}
{/dede:修剪}
有时需要像这样过滤:
{dede:trim replace=''}
(.*)
{/dede:修剪}
4.根据以上规则可以引入其他过滤规则。
5.过滤摘要和关键字用法,经常用到。
{dede:trim replace=''}{/dede:trim}
6. 简单替换。
{dede:trim replace='word after replacement'}要替换的单词{/dede:trim}
7.删除源代码
{dede:trim replace=''}src="([^"]*)"{/dede:trim}
(二) 内容页指定作者,出处
可以通过指定值来实现:
{dede:item field='writer' value='小军' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source' value='Military Net' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
(三)内容页面分页采集
在“内容分页导航所在区域的匹配规则:”中填写规则,例如,然后选择“所有列出的分页列表”。
遇到场景:如果选择“上下页格式或分页列表不完整”,列表页的所有文章内容都会写到一起