采集 文章(换个网站你什么都作不了,这个教程让你一看即会)
优采云 发布时间: 2022-01-15 21:02采集 文章(换个网站你什么都作不了,这个教程让你一看即会)
对于织梦(DEDEcms)的采集教程,很多网友都很头疼。确实,官方教程太笼统了。无能为力,本教程是最详细的教程,一看就知道!html
1、列表采集
第一步,我们打开织梦后台点击采集——采集节点管理——添加新节点正则表达式
第二步,这里我们以采集normal文章为例,我们选择normal文章,然后肯定是网站
第三步,进入采集的设置页面,填写节点名称。编码
步骤 4. 打开您想要 采集 的 文章 列表页面。温泉
以这个网站为例,打开这个页面,htm
右键-查看源文件找到目标页面代码,就在charset后面)教程
第五步,填写页面的基本信息,填写完图片后如图
第六步:填写列表URL,获取规则可以看到文章列表首页的地址。ip
源代码
比较第二页的地址
我们发现除了49_后面的数字之外它们是一样的,所以我们可以写
(*).html
就是把1换成(*),因为这里只有2页,所以我们从1填到2。每页加1,当然2-1...等于1
到这里我们就完成了
可能你的一些采集列表没有规则,只能手动指定列表URL,如图
每行写一个页面地址
第七步,填写文章 URL匹配规则,回到文章列表页面
右键查看源文件,找到区域开头的HTML,也就是找到文章列表开头的标记。
我们可以很容易地找到图片中的“新闻列表”。从这里开始,下面就是 文章 列表,然后在 文章 列表的末尾寻找 HTML
就是这样,一个容易找到的标志
如果链接收录图像:
不要把采集处理成缩略图,根据自己的需要选择
2、内容页面采集
第八步,再次过滤区域URL:
(使用正则表达式)必须收录:(优先级高于后者)
不能收录:打开源文件,我们可以清楚的看到文章的连接都是以.html结尾的。因此,必须在必须收录的后面填写.html。如果遇到一些列表比较麻烦,我们也可以填写以下不能收录
点击保存设置进入下一步,可以看到我们得到的文章 URL
看到这些就对了,我们保存信息,进入下一步设置内容字段获取规则
看看文章有没有分页,输入一篇文章文章就可以了。. 我们看到这里的 文章 没有分页
所以这里我们默认
现在我们找到文章等的标题,输入一个文章,右键查看源文件
看看这些
根据源码填写
第九步,填写文章内容的开始和结束,如上找到开始和结束标记。
开始部分如图
末端部分如图
填写最后一张图片
Step 10. 在过滤规则中写下文章中要过滤什么内容,比如要过滤文章中的图片,
选择常用的规则,如图
再次查看IMG,如图
那么确定
所以让我们过滤文本中的图片
第十一步,设置完成后,点击保存设置和预览,如图
这样的采集 规则已经写好了。这很简单。一些 网站 很难写,但需要做更多的工作。
我们点击保存启动采集——启动采集网页一会采集完成
查看我们的 采集 到 文章
最后,导出数据
首先选择要导入的列,在弹出的窗口中按“选择”选择要导入的列。发布选项通常是默认选项,除非您不想立即发布。每批导入的默认值为30,修改与否无关紧要。附加选项通常是“排除重复的标题”。至于自动生成HTML的选项,建议先不要生成,因为我们要批量提取摘要和关键词。
文章标题
匹配规则:[内容]
过滤规则:{dede:trimreplace=""}_XXX网站{/dede:trim}
3、采集规则补充(一)文本过滤和替换方法
1.删除最常用的超链接。
{dede:trim replace=''}]*)>{/dede:trim}
{dede:trim replace=''}{/dede:trim}
如果这样填写,那么连接的文本也会被删除。
{dede:trim replace=''}]*)>(.*){/dede:trim}
2.过滤JS调用广告,比如GG广告,加这个:
{dede:trim replace=''}{/dede:trim}
3.过滤 div 标签。
这是非常重要的。如果过滤不干净,可能会导致发布的 文章 布局错位。目前遇到采集后出现错位的原因大部分都在这里。
{dede:修剪替换=''}
{/dede:trim}
{dede:修剪替换=''}
{/dede:trim}
有时你需要像这样过滤:
{dede:修剪替换=''}
(.*)
{/dede:trim}
4.其他过滤规则可以根据以上规则推导出来。
5.过滤摘要和关键字用法,常用。
{dede:trim replace=''}{/dede:trim}
6.简单替换。
{dede:trim replace='replaced word'}要替换的单词{/dede:trim}
7.删除源
{dede:trim replace=''}src="([^"]*)"{/dede:trim}
(二)内容页指定作者和出处
指定要实现的值值:
{dede:item field='writer' value='小君' isunit=''' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:项目}
{dede:item field='source' value='军网' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:项目}
(三)内容页面分页采集
在“内容分页导航区匹配规则:”中,填写规则,如,然后选择“所有列出的分页列表”。
遇到场景:如果选择“上下分页形式或分页列表不完整”,列表页所有文章内容写在一起