文章采集调用(换个网站你什么都做不了,这个教程让你一看即会)
优采云 发布时间: 2022-01-06 07:05文章采集调用(换个网站你什么都做不了,这个教程让你一看即会)
很多网友对于织梦的采集教程(DEDEcms)感到头疼。确实,官方教程太笼统,没说什么。换个网站你是什么?不会啊,这个教程是最详细的教程了,赶紧看看吧!
一、列表采集
第一步,我们打开织梦后台,点击采集——采集节点管理——添加新节点
第二步,这里我们以采集normal文章为例,我们选择normal文章,然后确认
第三步,进入采集的设置页面,填写节点名称。
第四步,打开你要采集的文章列表页。
以这个网站为例,打开这个页面,
右键查看源文件找到目标页面编码,就在charset之后)
第五步,填写页面基本信息,填写后如图
第六步,填写列表URL获取规则,查看文章列表第一页地址。
比较第二页的地址
我们发现除了49_后面的数字是一样的,所以我们可以这样写
(*).html
就用(*)代替1,因为只有2页,所以我们从1到2填,每页加1,当然2-1...等于1。
到这里我们完成了
可能你的一些采集列表没有规则,所以你只需要手动指定列表URL即可,如图
每行写一个页面地址
第七步:填写文章 URL匹配规则,返回文章列表页面
右键查看源文件找到区域开头的HTML,也就是找到文章列表开头的标记。
我们可以很容易地找到如图所示的“新闻列表”。从这里开始,后面是文章列表,然后找到文章列表末尾的HTML
就是这样,一个很容易找到的标志
如果链接收录图片:
不要将采集处理成缩略图,这里根据自己的需要选择
二、内容页采集
第八步,重新筛选区域网站:
(使用正则表达式)必须收录:(优先级高于后者)
不能收录:打开源文件,我们可以清楚地看到文章链接以.html结尾,所以我们必须收录它并填写.html。如果遇到一些比较麻烦的list,也可以在后面填写Cannot contains
点击保存设置进入下一步,可以看到我们得到的文章 URL
看到这个是对的,我们保存信息,进入下一步设置内容字段获取规则
看看文章有没有分页,随便输入一篇文章看看吧。. 我们看到文章中没有分页
所以这里我们默认
找到文章标题等,输入一篇文章文章,右键查看源文件
看看这些
根据源码填写
第九步,填写文章内容的开头,结尾同上,找到开始和结束标志。
开始部分如图
末端部分如图所示
最后填写如图
第十步,要过滤文章中的什么内容,写在过滤规则中,比如过滤文章中的图片,
选择常用规则,如图
然后勾选IMG,如图
然后确定
这样我们过滤文本中的图片
第十一步,设置完成后,点击保存设置并预览,如图
写了这样一个采集规则,很简单吧?有些网站很难写,但你需要更努力。
我们点击保存,启动采集-start 采集网页,采集就完成了
看看我们采集到达了什么文章
最后,导出数据
首先选择要导入的列,在弹出的窗口中按“选择”选择需要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否都没有关系。附加选项一般选择“排除重复标题”。至于自动生成HTML的选项,建议不要先生成,因为我们要批量提取摘要和关键字。
文章标题
匹配规则:【内容】
过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}
来自百度
三、采集 规则补充(一) 文本过滤和替换方法
1.去除超链接,这个是最常用的。
{dede:trim replace="}]*)>{/dede:trim}
{dede:trim replace=”}{/dede:trim}
如果这样填写,那么链接的文字也被去掉了
{dede:trim replace=”}]*)>(.*){/dede:trim}
2. 过滤JS电话广告,如GG广告,添加:
{dede:trim replace=”}{/dede:trim}
3.过滤 div 标签。
这是非常重要的。如果过滤不干净,发布的 文章 页面可能会错位。目前遇到采集后出现错位的大部分原因都在这里。
{dede:修剪替换=”}
{/dede:修剪}
{dede:修剪替换=”}
{/dede:修剪}
有时需要像这样过滤:
{dede:修剪替换=”}
(.*)
{/dede:修剪}
4.根据以上规则可以引入其他过滤规则。
5.过滤摘要和关键字用法,经常用到。
{dede:trim replace=”}{/dede:trim}
6. 简单替换。
{dede:trim replace='word after replacement'}要替换的单词{/dede:trim}
7.删除源代码
{dede:trim replace=""}src="([^"]*)"{/dede:trim}
(二)内容页注明作者和出处
可以通过指定 value 值来实现:
{dede:item field='writer' value='小军' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source' value='Military Net' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
(三)内容页分页采集
在“内容分页导航所在区域的匹配规则:”中填写规则,如