技术文章:Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(三)
优采云 发布时间: 2022-11-24 07:32技术文章:Dedecms织梦采集功能的使用教程-含有分页的普通文章的采集(三)
前言:本文是《普通文章带分页的采集方法》的第三篇。在前面两节的基础上,将对“如何采集指定节点”和“如何导出采集内容”进行详细介绍。为了与上一篇文章保持一致,本文将继续使用上一篇文章的章节标记。
进入第二部分。
3.1 采集
指定节点
点击“保存并开始采集”后,将进入“采集指定节点”界面,如图(图29)所示,
图 29 - 指定节点的获取
每页采集:这个是设置每页采集多少条记录,采集间隔可以根据网站是否有反刷新功能来设置。
特殊选项:设置是否检测重复图片,默认为“检测”。
附加选项:该选项有3种采集方式可供选择:第一种为“监控采集方式(检查当前或所有节点是否有新内容)”,选择后系统将只采集指定节点更新的内容;第二个是“重新下载所有内容”。选择后,系统会采集
指定节点中的所有内容;第三个是“下载*敏*感*词*网站未下载的内容”。选择后,系统只会采集
指定节点中未下载的内容。过去的内容,包括以前未下载和更新的内容。
设置完成并确认无误后,即可点击“开始采集网页”或“查看*敏*感*词*网址”。此时如果点击“View Seed URL”,会看到列表为空,因为新创建的采集节点一直没有采集过,如图(图30),
图 30 - 查看节点的*敏*感*词* URL
点击“开始采集网页”后,系统会开始采集节点中设置的URL,并出现相关提示,如图(图31)所示,
图 31 - 采集过程中的提示信息
采集完成后,再次点击“查看*敏*感*词*URL”或点击页面右上角“查看已下载”,即可看到采集到的URL信息,如图(图32)所示,
图 32 - 查看节点的*敏*感*词* URL
采集成功后,您可以根据实际需要点击页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后,可以进入“采集管理>导出采集内容”界面,如图(图33)所示,
图 33 - 集合内容导出
“默认导出栏目”:设置采集内容将导入到的栏目
“批量采集选项”:如果采集规则中已经指定了列ID,则可以使用该功能。如果指定的列ID为0,系统会将采集到的内容导入到“默认导出列”中选择的列中。
“发布选项”:有发布为“普通文档”和“另存为草稿”的选项。
“每批次导入”:设置每批次导入的物品数量,这个数量不能太大。
“附加选项”:这里是多选。如果不想采集
重复的文章标题,可以选择“排除重复标题”;如果希望采集的内容直接生成HTML,可以选择“完成后自动生成导入的内容HTML”;如果想让系统采集列表页自动识别标题名称,可以勾选“使用列表索引的标题”,一般不建议勾选。
“随机推荐”:填写一个数字,代表文档的数量。推荐文档会在填写的文档数量内随机出现,如果填写“0”则表示不推荐。
设置完成后,点击“确定”,将下载的文件导入到选中的列中,如图(图34),
图 34 - 设置完成后的采集
内容导出页面
同时系统会提示导出过程,如图(图35),
图 35 - 采集内容导出时的提示信息
导出收录内容后,提示“全部栏目列表更新完成”后,点击“浏览栏目”进入网站相关页面,查看收录文章列表及其具体内容。也可以在后台管理界面主菜单中点击“核心”,再点击“常用文章”进入“文献列表”页面,查看采集
文章列表,如图(图36),
图 36 - 文档列表
在文档列表中,点击“用最简单的网络学习IP和ARP协议”的预览按钮,打开文章内容页面,找到页面的换页部分,如图(图37),
图 37 - 分页
可以看到收录
分页的文章内容已经成功采集。
综上所述,本文详细介绍了如何通过分页对常见文章类型的页面进行采集,并简单介绍了过滤规则。对于比较复杂的常见文章类型页面的采集和过滤规则的使用,会在以后的文章中介绍。
本文采集
规则:
{dede:listconfig}
{dede:noteinfo notename="采集测试(二)" channelid="1" macthtype="string"
refurl="http://www.bitscn.com/network/protocol/201105/193110.html" sourcelang="gb2312" cosort="asc"
isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.bitscn.com/network/protocol/list_(*).html"
startid="1" endid="1" addv="1" urlrule="area" musthas=""
nothas="" listpic="1" usemore="0"}
{dede:addurls}{/dede:addurls}
{dede:batchrule}{/dede:batchrule}
{dede:regxrule}{/dede:regxrule}
{dede:areastart}{/dede:areastart}
{dede:areaend}{/dede:areaend}
{/dede:listrule}
{/dede:listconfig}
<p>
" />
{dede:itemconfig}
{dede:sppage sptype='full' srul='1' erul='5'}[内容]{/dede:sppage}
{dede:previewurl}http://www.bitscn.com/network/protocol/201105/193110.html{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
{dede:match}[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}{dede:item field='writer' value='' isunit='' isdown=''}
{dede:match}{/dede:match}
{dede:function}{/dede:function}
{/dede:item}{dede:item field='source' value='' isunit='' isdown=''}
{dede:match}来源:[内容]{/dede:match}
{dede:function}{/dede:function}
{/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''}
{dede:match}时间:[内容] {/dede:match}
{dede:function}{/dede:function}
{/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'}
{dede:match}[内容]{/dede:match}
{dede:trim replace=""}(.*){/dede:trim}
{dede:trim replace=""}(.*){/dede:trim}
{dede:trim replace=""}(.*){/dede:trim}
{dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}</p>
相关文章
最新版:2018最新某小说网站源码,杰奇全自动采集+WAP手机模板+封装APP
2018最新小说网站源码,成龙全自动采集+WAP手机模板+封装APP
1. 上传到网站的根目录
2. 使用 phpMyadmin 导入数据库文件 158code .sql
3. 修改数据库链接文件 \configs\define.php(修改第 16-17 行)。(切记不要使用记事本
修改,否则可能会出现验证码无法显示的问题,建议使用记事本++
.)
4. 背景地址 您的域名/管理员
帐户管理员密码
" />
下载地址
本站资源全部来自互联网,仅限于学习和研究,严禁从事商业或非法活动! 丨本网站根据 BY-NC-SA 许可进行许可
请注明原文链接:2018最新小说网站源码,成龙自动合集+WAP手机模板+封装APP
奖励
[]