干货教程:13、[实例教程]轻松采集文章信息
优采云 发布时间: 2022-12-26 11:27干货教程:13、[实例教程]轻松采集文章信息
信息采集管理系统的作用:
可以帮助企业在信息采集和资源整合方面节省大量的人力和资金。 广泛应用于行业网站、竞争情报系统、知识管理系统、网站内容系统、垂直搜索、科学研究等领域。
在今天的章节中,我们将以采集腾讯网站各处新闻榜单为例,一步步教大家如何使用采集系统,如何设置采集规则。
点击内容管理-->信息采集管理,如下图:
点击“新建项目”,选择文章作为模型,column就是你要采集的信息所在的栏目。 我们选择国内新闻栏目,如下图:
点击“下一步”进入设置列表索引和起止标记,如下图:
这时候我们需要打开采集信息页面的第一页,将URL复制粘贴到列表索引页面:
下面的标记要求我们查看网页生成的源代码,如下图:
搜索找到”各地新闻”,注意观察,我们发现各地新闻的信息列表,在分页下边找到列表开始标记:
再到底部分页上找列表结束标记:
填好后再点击“下一步”按钮继续我们的采集任务,然后找链接开始和结束标记,如下图:
我们在列表拦截测试中看到我们已经成功拦截了一些信息列表。 或者看刚才的源码也能找到,如下图:
我们看到链接开始为:
以。。结束:
">
填好后如下图:
点击“下一步”继续设置文章的短标题标签,如下图:
此时,我们看到“返回”和“下一步”按钮下有分析列表链接测试,我们可以试试看链接是否正确。 如下所示:
接下来我们打开一篇文章查看其源码,如下图:
搜索文章标题,然后找到代码,如下图:
填写短标题开始和结束标签,然后在下方找到文章内容开始和结束标签,如下图:
填写标题的起止标签,找出文章内容的起止标签,如下图:
这个时候如果提示截取列表错误,那么你可能没有找到唯一性,需要继续测试。 如果之前的设置没有问题,那么继续点击“下一步”,如下图:
看到上面的界面,干杯,我们采集成功了。 继续点击“Next”进行一些相关的采集设置。 如果我们需要采集的文章中有图片,以便自动转成图片文章,勾选一下,如下图:
点击“完成”按钮完成采集规则的设置。 如下所示:
点击“确定”按钮,返回采集管理首页,如下图:
此时,您只需点击“采集”链接即可采集信息。
上面我们描述的是只采集一页信息列表的情况,所以如果我们需要采集更多页面的信息,我们再回过头来观察信息列表页面的生成规则,如下图所示:
将鼠标移动到2显示
那么我们就可以根据他的生成规则来编辑我们的采集工程了。 此时选择批量生成,复制粘贴网址,将页码改为{$ID},填入生成范围的数字。 比如你需要采集的前8页,我们就填2-8,如下图:
设置完成后,我们如上设置,点击“下一步”、“下一步”按钮,直至设置完成。
返回采集管理首页,点击“采集”链接,如下图:
然后系统进入开始采集界面,如下图所示:
这里注意,采集的时候不要刷新这个页面。
采集完成后,系统会自动统计采集的文章数、成功的文章数、失败的文章数、图片数量。
我们点击“查看并入库”按钮进入查看我们已经成功采集的文章,我们可以进入批量选择入库文章,如下图:
如果需要将所有文章入库,点击“全部入库”按钮,如下图:
单击“确定”按钮。 我们回到文章系统,可以看到文章已经存储成功,如下图:
我们回到信息采集管理,看到“历史记录”按钮。 点击后可以清除所有采集的历史记录,如下图:
推荐文章:什么是百度快照 和SEO排名有关吗
找A5进行项目招商,快速获取精准代理商名单
什么是百度快照,百度快照有什么作用,百度快照越高,SEO排名越好。
通俗地说,百度快照就是百度对网站进行拍照。 它不同于传统的摄影。 传统的拍照工具是相机,拍摄对象是动物、植物等。 不过百度的拍照工具是百度蜘蛛。 就是一个网站,不管是传统摄影还是百度摄影,本质都是一样的。
百度蜘蛛(Baidu Spider)每天频繁抓取海量的网站数据,存储在百度数据库中,并备份多份数据,以显示不同环境和情况下的不同数据库快照。 比如搜索不同的关键词,百度快照是不同的,不同的时间点,百度快照也是不同的。
百度快照越新,百度蜘蛛的访问越活跃,网站越受欢迎。 但是,百度快照与网站排名没有直接关系。 对于一些权重高的老网站,即使快照延迟高,排名也会不错。 对于刚建站的新站,即使快照很新,也会因为权重不够导致排名不佳。
百度快照只是一个参考,不能作为衡量网站好坏的工具,大家不要太纠结。