教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章（三）

优采云发布时间: 2022-11-26 04:09

　　教程:Dedecms织梦

" target="_blank">采集功能的使用方法-不含分页的普通文章（三）

　　前言：本文为《无分页普通

" target="_blank">文章采集方法》第三篇。在前面两节的基础上，对“如何采集指定节点”和“如何导出采集到的内容”进行详细说明。为了与上一篇文章保持一致，本文将继续使用上一篇文章的章节标记。

　　进入第二部分。

　　3.1 采集

指定节点

　　点击“保存并开始采集”后，将进入“采集指定节点”界面，如图（图34）所示，

　　图 34 - 指定节点的获取

　　每页采集：设置每页采集的条数，根据网站是否有反刷新功能设置采集间隔。

　　特殊选项：设置是否检测重复图片，默认为“检测”。

　　附加选项：该选项有3种采集方式可供选择：第一种为“监控采集方式（检查当前或所有节点是否有新内容）”，选择后系统将只采集指定节点更新的内容；第二个是“重新下载所有内容”。选择后，系统会采集

指定节点中的所有内容；第三个是“下载*敏*感*词*网站未下载的内容”。选择后，系统只会采集

指定节点中未下载的内容。过去的内容，包括以前未下载和更新的内容。

　　设置完成并确认无误后，即可点击“开始采集网页”或“查看*敏*感*词*网址”。此时如果点击“View Seed URL”，会看到列表为空，因为新创建的采集节点一直没有采集过，如图（图35），

　　图 35 - 查看节点的*敏*感*词* URL

　　点击“开始采集网页”后，系统会开始采集节点中设置的URL，并出现相关提示，如图（图36）所示，

　　图 36 - 采集过程中的提示信息

　　采集完成后，再次点击“查看*敏*感*词*URL”或点击页面右上角“查看已下载”，即可看到采集到的URL信息，如图（图37），

　　图 37 - 查看节点的*敏*感*词* URL

　　采集成功后，您可以根据实际需要点击页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后，可以进入“采集管理>导出采集内容”界面，如图（图38）所示，

　　图 38 - 集合内容导出

　　“默认导出栏目”：设置采集内容将导入到的栏目

　　“批量采集选项”：如果采集规则中已经指定了列ID，则可以使用该功能。如果指定的列ID为0，系统会将采集到的内容导入到“默认导出列”中选择的列中。

　　“发布选项”：有发布为“普通文档”和“另存为草稿”的选项。

　　“每批次导入”：设置每批次导入的物品数量，这个数量不能太大。

　　“附加选项”：这里是多选。如果不想采集

重复的文章标题，可以选择“排除重复标题”；如果希望采集的内容直接生成HTML，可以选择“完成后自动生成导入的内容HTML”；如果想让系统采集列表页自动识别标题名称，可以勾选“使用列表索引的标题”，一般不建议勾选。

　　“随机推荐”：填写一个数字，代表文档的数量。推荐文档会在填写的文档数量内随机出现，如果填写“0”则表示不推荐。

　　设置完成后，点击“确定”，将下载的文件导入到选中的列中，如图（图39），

　　图 39 - 设置完成后的采集

内容导出页面

　　同时系统会提示导出过程，如图（图40），

" />

　　图 40 - 采集内容导出时的提示信息

　　导出收录内容后，提示“全部栏目列表更新完成”后，点击“浏览栏目”进入网站相关页面，查看收录文章列表及其具体内容。也可以在后台管理界面主菜单中点击“核心”，再点击“常用文章”进入“文献列表”页面，查看采集

文章列表，如图41所示，

　　图 41 - 文档列表

　　至此，成功采集到目标网站的文章内容。

　　综上所述，采集

“无分页的普通文章”比较简单。由于本文是基础教程，所以没有涉及过多的“过滤规则”。“分页常见文章”的采集方法和过滤规则的使用将在下一篇文章中介绍。

　　附上本文的采集

规则：

{dede:listconfig}

{dede:noteinfo notename="采集测试（一）" channelid="1" macthtype="string"

refurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}

{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html"

startid="1" endid="1" addv="1" urlrule="area"

musthas=".html" nothas="" listpic="1" usemore="0"}

{dede:addurls}{/dede:addurls}

{dede:batchrule}{/dede:batchrule}

{dede:regxrule}{/dede:regxrule}

{dede:areastart}{/dede:areastart}

{dede:areaend}{/dede:areaend}

{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}

{dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}

{dede:previewurl}http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html{/dede:previewurl}

{dede:keywordtrim}{/dede:keywordtrim}

{dede:deｓｃｒｉｐｔiontrim}{/dede:deｓｃｒｉｐｔiontrim}

{dede:item field='title' value='' isunit='' isdown=''}

<p>

" />

{dede:match}[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{dede:item field='writer' value='' isunit='' isdown=''}

{dede:match}作者：[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{dede:item field='source' value='' isunit='' isdown=''}

{dede:match}来源：[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{dede:item field='pubdate' value='' isunit='' isdown=''}

{dede:match}发表于：[内容]{/dede:match}

{dede:[email protected]/* */=GetMkTime(@me);{/dede:function}

{/dede:item}

{dede:item field='body' value='' isunit='1' isdown='1'}

{dede:match}[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{/dede:itemconfig}</p>

　　教程:爱站SEO工具包使用robots制作工具的操作方法。

　　仍然想知道如何在爱情网站SEO工具包中使用机器人制造商？快来了解如何在isiteSEO工具包中使用机器人制造商，它肯定会对每个人都有所帮助。

　　这

　　Aisite SEO工具包使用机器人制造商的操作方法

" />

　　“

　　机器人”经常被一些朋友称为“萝卜丝”，这就是搜索引擎的“网络爬虫排除协议”。使用机器人协议，我们可以告诉搜索引擎允许抓取网站的哪些页面，哪些不允许。

　　如果您想阻止爬虫抓取网站的某些目录，但不熟悉编写机器人文件，您可以通过 iSite SEO 工具包的机器人制造商生成具有简单设置的机器人.txt文件。

" />

　　如图所示，我们可以通过简单的选择和设置生成机器人.txt并将其放在网站的根目录下，它可以告诉搜索引擎爬虫哪些页面可以抓取，哪些页面不能抓取。

　　以上就是在爱站SEO工具包中使用机器人制造商的方法，一起来看看吧。

0

2022-11-26

文章采集功能

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章（三）

0 个评论

发起人

AI时代内容工厂

教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章（三）

0 个评论

发起人

相关问题