自动采集文章文章(这节教您如何来运用采集系统,如何设置采集规则 )
优采云 发布时间: 2021-08-30 17:11自动采集文章文章(这节教您如何来运用采集系统,如何设置采集规则
)
information采集管理系统的作用:
可以帮助企业在信息采集和资源整合方面节省大量的人力和资金。广泛应用于行业门户网站、竞争情报系统、知识管理系统、网站内容系统、垂直搜索、科研等领域。
今天这一节,我们以采集QQ网站的新闻列表为例,一步步教你如何使用采集系统以及如何设置采集规则。
点击内容管理-->信息采集管理,如下图:
点击“新建项目”,选择文章作为模型所属,该列属于你想要采集放在哪个列下。我们选择国内新闻栏目,如下图:
点击“下一步”进入设置列表索引和开始结束标签,如下图:
这时候我们需要打开采集的信息页第一页,把网址复制粘贴到列表索引页:
以下标记要求我们查看网页生成的源代码,如下图:
搜索找到”各地新闻”,注意观察,我们发现各地新闻的信息列表,在分页下边找到列表开始标记:
再到底部分页上找列表结束标记:
填好后再点击“下一步”按钮继续我们的采集任务,然后找链接开始和结束标记,如下图:
我们在列表拦截测试中看到我们成功拦截了一些信息列表。或者查看刚才的源码找到,如下图:
我们看到链接开始为:
结尾是:
">
填写后,如下图:
点击“下一步”继续设置文章短标题标签,如下图:
此时,我们在“Previous”和“Next”按钮下看到了分析列表链接测试。我们可以试试看链接是否正确。如下图:
接下来我们打开一个文章查看其源码,如下图:
搜索文章title,然后找到代码,如下图:
填写短标题的开始和结束标签,找到下面的文章content开始和结束标签,如下图:
填写标题的开始和结束标签,找出文章内容的开始和结束标签,如下图:
此时如果提示截取列表错误,则可能是找不到唯一性,需要继续测试。如果之前的设置没有问题,那么继续点击“下一步”,如下图:
看到上面的界面,加油,我们采集成功了。继续点击“下一步”进行一些相关的采集设置。如果我们需要采集的文章里面有图片,就让它自动转换成图片文章,然后勾选,如下图:
点击“完成”按钮完成采集规则设置。如下图:
点击“确定”按钮返回采集管理首页,如下图:
此时,您只需点击“采集”链接即可获得采集信息。
我们上面介绍的是采集信息列表只有一页的情况,所以如果我们需要超过一页的采集信息,我们会返回来观察信息列表页面的生成规则,如下图所示:
将鼠标移动到 2 以显示它
然后我们就可以根据他的生成规则编辑我们的采集项目,这一步的时候选择批量生成,把URL复制粘贴进去,把页数改成{$ID},填写生成range 加上数字,比如需要采集的前8页,我们就填2-8,如下图:
设置好后,我们就如上设置,点击“下一步”和“下一步”按钮,直到设置完成。
返回采集管理首页,点击“采集”链接,如下图:
然后系统进入启动采集界面,如下图:
这里注意,采集时请不要刷新此页面。
采集Complete系统会自动统计采集文章的总数,成功的有多少,失败的有多少,有多少张图片。
我们点击“review in storage”按钮进入,可以查看我们成功的采集文章,也可以进入批量选择将文章存储到库中,如下图:
如果文章需要全部入库,点击“全部入库”按钮,如下图:
点击“确定”按钮。我们回到文章系统,看到文章已经成功放入数据库,如下图:
我们返回信息采集管理,看到“历史”按钮。点击后可以清除采集的所有历史记录,如下图: