教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章(三)

优采云 发布时间: 2022-11-26 04:09

  教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章(三)

  前言:本文为《无分页普通文章采集方法》第三篇。在前面两节的基础上,对“如何采集指定节点”和“如何导出采集到的内容”进行详细说明。为了与上一篇文章保持一致,本文将继续使用上一篇文章的章节标记。

  进入第二部分。

  3.1 采集

指定节点

  点击“保存并开始采集”后,将进入“采集指定节点”界面,如图(图34)所示,

  图 34 - 指定节点的获取

  每页采集:设置每页采集的条数,根据网站是否有反刷新功能设置采集间隔。

  特殊选项:设置是否检测重复图片,默认为“检测”。

  附加选项:该选项有3种采集方式可供选择:第一种为“监控采集方式(检查当前或所有节点是否有新内容)”,选择后系统将只采集指定节点更新的内容;第二个是“重新下载所有内容”。选择后,系统会采集

指定节点中的所有内容;第三个是“下载*敏*感*词*网站未下载的内容”。选择后,系统只会采集

指定节点中未下载的内容。过去的内容,包括以前未下载和更新的内容。

  设置完成并确认无误后,即可点击“开始采集网页”或“查看*敏*感*词*网址”。此时如果点击“View Seed URL”,会看到列表为空,因为新创建的采集节点一直没有采集过,如图(图35),

  图 35 - 查看节点的*敏*感*词* URL

  点击“开始采集网页”后,系统会开始采集节点中设置的URL,并出现相关提示,如图(图36)所示,

  图 36 - 采集过程中的提示信息

  采集完成后,再次点击“查看*敏*感*词*URL”或点击页面右上角“查看已下载”,即可看到采集到的URL信息,如图(图37),

  图 37 - 查看节点的*敏*感*词* URL

  采集成功后,您可以根据实际需要点击页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>导出采集内容”界面,如图(图38)所示,

  图 38 - 集合内容导出

  “默认导出栏目”:设置采集内容将导入到的栏目

  “批量采集选项”:如果采集规则中已经指定了列ID,则可以使用该功能。如果指定的列ID为0,系统会将采集到的内容导入到“默认导出列”中选择的列中。

  “发布选项”:有发布为“普通文档”和“另存为草稿”的选项。

  “每批次导入”:设置每批次导入的物品数量,这个数量不能太大。

  “附加选项”:这里是多选。如果不想采集

重复的文章标题,可以选择“排除重复标题”;如果希望采集的内容直接生成HTML,可以选择“完成后自动生成导入的内容HTML”;如果想让系统采集列表页自动识别标题名称,可以勾选“使用列表索引的标题”,一般不建议勾选。

  “随机推荐”:填写一个数字,代表文档的数量。推荐文档会在填写的文档数量内随机出现,如果填写“0”则表示不推荐。

  设置完成后,点击“确定”,将下载的文件导入到选中的列中,如图(图39),

  图 39 - 设置完成后的采集

内容导出页面

  同时系统会提示导出过程,如图(图40),

  

" />

  图 40 - 采集内容导出时的提示信息

  导出收录内容后,提示“全部栏目列表更新完成”后,点击“浏览栏目”进入网站相关页面,查看收录文章列表及其具体内容。也可以在后台管理界面主菜单中点击“核心”,再点击“常用文章”进入“文献列表”页面,查看采集

文章列表,如图41所示,

  图 41 - 文档列表

  至此,成功采集到目标网站的文章内容。

  综上所述,采集

“无分页的普通文章”比较简单。由于本文是基础教程,所以没有涉及过多的“过滤规则”。“分页常见文章”的采集方法和过滤规则的使用将在下一篇文章中介绍。

  附上本文的采集

规则:

  

{dede:listconfig}

{dede:noteinfo notename="采集测试(一)" channelid="1" macthtype="string"

refurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}

{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html"

startid="1" endid="1" addv="1" urlrule="area"

musthas=".html" nothas="" listpic="1" usemore="0"}

{dede:addurls}{/dede:addurls}

{dede:batchrule}{/dede:batchrule}

{dede:regxrule}{/dede:regxrule}

{dede:areastart}{/dede:areastart}

{dede:areaend}{/dede:areaend}

{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}

{dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}

{dede:previewurl}http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html{/dede:previewurl}

{dede:keywordtrim}{/dede:keywordtrim}

{dede:descriptiontrim}{/dede:descriptiontrim}

{dede:item field='title' value='' isunit='' isdown=''}

<p>

" />

{dede:match}[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{dede:item field=&#039;writer&#039; value=&#039;&#039; isunit=&#039;&#039; isdown=&#039;&#039;}

{dede:match}作者:[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{dede:item field=&#039;source&#039; value=&#039;&#039; isunit=&#039;&#039; isdown=&#039;&#039;}

{dede:match}来源:[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{dede:item field=&#039;pubdate&#039; value=&#039;&#039; isunit=&#039;&#039; isdown=&#039;&#039;}

{dede:match}发表于:[内容]{/dede:match}

{dede:[email protected]/* */=GetMkTime(@me);{/dede:function}

{/dede:item}

{dede:item field=&#039;body&#039; value=&#039;&#039; isunit=&#039;1&#039; isdown=&#039;1&#039;}

{dede:match}[内容]{/dede:match}

{dede:function}{/dede:function}

{/dede:item}

{/dede:itemconfig}</p>

  教程:爱站SEO工具包使用robots制作工具的操作方法。

  仍然想知道如何在爱情网站SEO工具包中使用机器人制造商?快来了解如何在isiteSEO工具包中使用机器人制造商,它肯定会对每个人都有所帮助。

  这

  Aisite SEO工具包使用机器人制造商的操作方法

  

" />

  “

  机器人”经常被一些朋友称为“萝卜丝”,这就是搜索引擎的“网络爬虫排除协议”。使用机器人协议,我们可以告诉搜索引擎允许抓取网站的哪些页面,哪些不允许。

  如果您想阻止爬虫抓取网站的某些目录,但不熟悉编写机器人文件,您可以通过 iSite SEO 工具包的机器人制造商生成具有简单设置的机器人.txt文件。

  

" />

  如图所示,我们可以通过简单的选择和设置生成机器人.txt并将其放在网站的根目录下,它可以告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取。

  以上就是在爱站SEO工具包中使用机器人制造商的方法,一起来看看吧。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线