文章采集调用(不能的匹配规则(b)和文章内容的结束部分相对应)

优采云发布时间: 2021-09-07 14:02

　　"之后。通过对比文章content页面和它的源码，不难发现第一部分其实是一个摘要，第二部分是文章内容的开头。因此，您应该选择“

　　" 是匹配规则的开头。

　　(b) 找到文章内容的结尾部分“同时添加值为”transparent”的“wmode”参数，如图29所示，

　　图29-文章内容结束

　　注意：因为结束部分的最后一个标签是“

　　"，并且这个标签在文章内容中多次出现，所以不能作为采集规则的结束标签。考虑到它应该对应文章内容的开头，是经过比较分析得到的，这里要选“

　　" 作为文章内容的结尾，如图30所示，

　　图30-文章内容匹配规则结束

　　(c) 结合(a)和(b)，我们可以看出文章内容的匹配规则应该是“

　　[内容]

　　”，填写后，如图31，

　　图31-文章内容匹配规则

　　此处未使用过滤规则。过滤规则的介绍和使用将放在单独的章节中。

　　这里“添加采集节点：步骤2设置内容字段获取规则”，设置完成。填写完毕后，如图（图32）,

　　图32-设置后新建采集节点：第二步设置内容字段获取规则

　　勾选后，点击“保存配置并预览”。如果之前的设置正确，点击后会进入“添加采集节点：测试内容字段设置”页面，看到对应的文章内容。如图（图33）,

　　图33-新建采集节点：测试内容字段设置

　　确认无误后，点击“仅保存”，系统会提示“保存配置成功”，返回“采集节点管理”界面；如果点击“保存并启动采集”，则会进入“采集指定节点”界面。否则请点击“返回上一步修改”。

　　点击“保存并启动采集”后，会进入“采集指定节点”界面，如图（图34），

　　图34-采集指定节点

　　采集每页：设置每页需要的采集个数，根据网站是否有防刷新功能设置采集间隔。

　　特殊选项：设置是否检测重复图片，默认为“检测”。

　　附加选项：该选项有3种采集模式可供选择：第一种是“监控采集模式（检查当前或所有节点是否有新内容）”，选择后系统只会采集采集指定节点的更新内容；第二种是“重新下载所有内容”，选择后系统会采集指定节点的所有内容；第三种是“下载seed网站未下载的内容”，选择后系统只会采集指定节点未下载的内容，包括之前未下载和更新的内容。

　　完成设置并确认无误后，即可点击“Start采集Webpage”或“查看*敏*感*词*网址”。此时，如果您单击“查看*敏*感*词* URL”，您将看到列表是空的。这是因为新创建的采集节点从来就不是采集，如图（图35），

　　图35-查看节点的seed URL

　　点击“启动采集网页”后，系统将启动采集节点中设置的URL，并出现相关提示，如图36），

　　图 36-采集Prompt 消息进行中

　　采集结束后，再次点击“查看*敏*感*词*网址”或点击页面右上角的“查看已下载”，可以看到已经采集的网址信息，如（图3 7）显示，

　　图37-查看节点的seed URL

　　采集成功后，可以根据实际需要选择页面右上角的“采集节点管理”或“导出数据”。点击“导出数据”后，可以进入“采集管理>采集内容导出”界面，如图（图38），

　　图 38-采集Content 导出

　　“默认导出列”：设置导入采集内容的列

　　“批量采集option”：如果采集规则中已经指定了列ID，则可以使用该函数。如果指定的列ID为0，系统会将采集内容导入到“默认导出列”“选定列”中。

　　“发布选项”：有发布为“普通文档”和“另存为草稿”的选项。

　　“每批次导入”：设置每批次导入的项目数。这个数字不能太大。

　　“有选项”：这是一个多项选择。如果不想采集重复文章标题，可以选择“排除重复标题”；如果希望采集接收到的内容直接生成HTML，可以选择“完成后自动生成导入的内容HTML”；如果需要系统会自动识别采集列表页面上的标题名称，您可以选择“使用列表索引的标题”。一般不建议勾选。

　　“随机推荐”：填写一个数字，代表文档的数量。推荐的文档随机出现在输入的文档数量中。如果输入“0”，则表示不推荐。

　　设置完成后，可以点击“确定”将下载的项目导入到选中的列中，如图（图39），

　　图39-采集设置后的内容导出页面

　　同时系统会提示导出过程，如图（图40），

　　图40-采集内容导出中的提示信息

　　导出采集内容提示“完成所有栏目列表更新”后，点击“浏览栏目”，即可进入网站相关页面查看采集到文章列表及其具体内容。也可以在后台管理界面的主菜单中点击“Core”，然后点击“Common文章”进入“文档列表”页面，从采集查看文章列表，如图（图41）显示，

　　图 41-文档列表

　　到目前为止，采集已经成功到达目标网站的文章内容。

　　综上所述，采集“普通文章无分页”比较简单。由于本文文章是基础教程，所以没有涉及太多“过滤规则”。 “常用文章带分页”的采集方法以及过滤规则的使用将在下一篇文章中介绍。

　　附上本文的采集rule：

　　{dede:listconfig}

{dede:noteinfo notename=”采集测试（一）” channelid=”1″ macthtype=”string”

refurl=”http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html” sourcelang=”gb2312″ cosort=”asc” isref=”no” exptime=”10″ usemore=”0″ /}

{dede:listrule sourcetype=”batch” rssurl=”http://” regxurl=”http://www.dedecms.com/knowledge/web-based/dreamweaver/list_47_(*).html”

startid=”1″ endid=”1″ addv=”1″ urlrule=”area”

musthas=”.html” nothas=”" listpic=”1″ usemore=”0″}

{dede:addurls}{/dede:addurls}

{dede:batchrule}{/dede:batchrule}

{dede:regxrule}{/dede:regxrule}

{dede:areastart}

　　{/dede:areastart} {dede:areaend}

{/dede:areaend}

{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}

{dede:sppage sptype=’full’ sptype=’full’ srul=’1′ erul=’5′}{/dede:sppage}

{dede:previewurl}http://www.dedecms.com/knowledge/web-based/dreamweaver/2009/0929/765.html{/dede:previewurl}

{dede:keywordtrim}{/dede:keywordtrim}

{dede:descriptiontrim}{/dede:descriptiontrim}

{dede:item field=’title’ value=” isunit=” isdown=”}

{dede:match}

　　[Content]{/dede:match} {dede:function}{/dede:function}{/dede:item}{dede:item field='writer' value="isunit="isdown="} {dede :match}作者：[Content]{/dede:match} {dede:function}{/dede:function}{/dede:item}{dede:item field='source' value="isunit="isdown="} {dede:match}来源：[内容]{/dede:match} {dede:function}{/dede:function}{/dede:item}{dede:item field='pubdate' value=” isunit=” isdown= ”} {dede:match} 发表于：[Content]{/dede:match} {dede:function}@me=GetMkTime(@me);{/dede:function}{/dede:item}{dede:item 字段='body' value=" isunit='1' isdown='1'} {dede:match}

　　[内容]

　　{/dede:match} {dede:function}{/dede:function}{/dede:item}{/dede:itemconfig}

0

2021-09-07

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用(不能的匹配规则(b)和文章内容的结束部分相对应)

0 个评论

发起人

AI时代内容工厂

文章采集调用(不能的匹配规则(b)和文章内容的结束部分相对应)

0 个评论

发起人

相关问题