教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章(三)
优采云 发布时间: 2022-11-26 04:09教程:Dedecms织梦采集功能的使用方法-不含分页的普通文章(三)
前言:本文为《无分页普通文章采集方法》第三篇。在前面两节的基础上,对“如何采集指定节点”和“如何导出采集到的内容”进行详细说明。为了与上一篇文章保持一致,本文将继续使用上一篇文章的章节标记。
进入第二部分。
3.1 采集
指定节点
点击“保存并开始采集”后,将进入“采集指定节点”界面,如图(图34)所示,
图 34 - 指定节点的获取
每页采集:设置每页采集的条数,根据网站是否有反刷新功能设置采集间隔。
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:该选项有3种采集方式可供选择:第一种为“监控采集方式(检查当前或所有节点是否有新内容)”,选择后系统将只采集指定节点更新的内容;第二个是“重新下载所有内容”。选择后,系统会采集
指定节点中的所有内容;第三个是“下载*敏*感*词*网站未下载的内容”。选择后,系统只会采集
指定节点中未下载的内容。过去的内容,包括以前未下载和更新的内容。
设置完成并确认无误后,即可点击“开始采集网页”或“查看*敏*感*词*网址”。此时如果点击“View Seed URL”,会看到列表为空,因为新创建的采集节点一直没有采集过,如图(图35),
图 35 - 查看节点的*敏*感*词* URL
点击“开始采集网页”后,系统会开始采集节点中设置的URL,并出现相关提示,如图(图36)所示,
图 36 - 采集过程中的提示信息
采集完成后,再次点击“查看*敏*感*词*URL”或点击页面右上角“查看已下载”,即可看到采集到的URL信息,如图(图37),
图 37 - 查看节点的*敏*感*词* URL
采集成功后,您可以根据实际需要点击页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>导出采集内容”界面,如图(图38)所示,
图 38 - 集合内容导出
“默认导出栏目”:设置采集内容将导入到的栏目
“批量采集选项”:如果采集规则中已经指定了列ID,则可以使用该功能。如果指定的列ID为0,系统会将采集到的内容导入到“默认导出列”中选择的列中。
“发布选项”:有发布为“普通文档”和“另存为草稿”的选项。
“每批次导入”:设置每批次导入的物品数量,这个数量不能太大。
“附加选项”:这里是多选。如果不想采集
重复的文章标题,可以选择“排除重复标题”;如果希望采集的内容直接生成HTML,可以选择“完成后自动生成导入的内容HTML”;如果想让系统采集列表页自动识别标题名称,可以勾选“使用列表索引的标题”,一般不建议勾选。
“随机推荐”:填写一个数字,代表文档的数量。推荐文档会在填写的文档数量内随机出现,如果填写“0”则表示不推荐。
设置完成后,点击“确定”,将下载的文件导入到选中的列中,如图(图39),
图 39 - 设置完成后的采集
内容导出页面
同时系统会提示导出过程,如图(图40),
" />
图 40 - 采集内容导出时的提示信息
导出收录内容后,提示“全部栏目列表更新完成”后,点击“浏览栏目”进入网站相关页面,查看收录文章列表及其具体内容。也可以在后台管理界面主菜单中点击“核心”,再点击“常用文章”进入“文献列表”页面,查看采集
文章列表,如图41所示,
图 41 - 文档列表
至此,成功采集到目标网站的文章内容。
综上所述,采集
“无分页的普通文章”比较简单。由于本文是基础教程,所以没有涉及过多的“过滤规则”。“分页常见文章”的采集方法和过滤规则的使用将在下一篇文章中介绍。
附上本文的采集
规则:
{dede:listconfig}
{dede:noteinfo notename="采集测试(一)" channelid="1" macthtype="string"
refurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html" sourcelang="gb2312" cosort="asc" isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html"
startid="1" endid="1" addv="1" urlrule="area"
musthas=".html" nothas="" listpic="1" usemore="0"}
{dede:addurls}{/dede:addurls}
{dede:batchrule}{/dede:batchrule}
{dede:regxrule}{/dede:regxrule}
{dede:areastart}{/dede:areastart}
{dede:areaend}{/dede:areaend}
{/dede:listrule}
{/dede:listconfig}
{dede:itemconfig}
{dede:sppage sptype='full' sptype='full' srul='1' erul='5'}{/dede:sppage}
{dede:previewurl}http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
<p>
" />
{dede:match}[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='writer' value='' isunit='' isdown=''}
{dede:match}作者:[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='source' value='' isunit='' isdown=''}
{dede:match}来源:[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{dede:item field='pubdate' value='' isunit='' isdown=''}
{dede:match}发表于:[内容]{/dede:match}
{dede:[email protected]/* */=GetMkTime(@me);{/dede:function}
{/dede:item}
{dede:item field='body' value='' isunit='1' isdown='1'}
{dede:match}[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}</p>
教程:爱站SEO工具包使用robots制作工具的操作方法。
仍然想知道如何在爱情网站SEO工具包中使用机器人制造商?快来了解如何在isiteSEO工具包中使用机器人制造商,它肯定会对每个人都有所帮助。
这
Aisite SEO工具包使用机器人制造商的操作方法
" />
“
机器人”经常被一些朋友称为“萝卜丝”,这就是搜索引擎的“网络爬虫排除协议”。使用机器人协议,我们可以告诉搜索引擎允许抓取网站的哪些页面,哪些不允许。
如果您想阻止爬虫抓取网站的某些目录,但不熟悉编写机器人文件,您可以通过 iSite SEO 工具包的机器人制造商生成具有简单设置的机器人.txt文件。
" />
如图所示,我们可以通过简单的选择和设置生成机器人.txt并将其放在网站的根目录下,它可以告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不能抓取。
以上就是在爱站SEO工具包中使用机器人制造商的方法,一起来看看吧。