自动采集文章文章(这节教您如何来运用采集系统,如何设置采集规则 )

优采云 发布时间: 2021-08-30 17:11

  自动采集文章文章(这节教您如何来运用采集系统,如何设置采集规则

)

  information采集管理系统的作用:

  可以帮助企业在信息采集和资源整合方面节省大量的人力和资金。广泛应用于行业门户网站、竞争情报系统、知识管理系统、网站内容系统、垂直搜索、科研等领域。

  今天这一节,我们以采集QQ网站的新闻列表为例,一步步教你如何使用采集系统以及如何设置采集规则。

  点击内容管理-->信息采集管理,如下图:

  

  点击“新建项目”,选择文章作为模型所属,该列属于你想要采集放在哪个列下。我们选择国内新闻栏目,如下图:

  

  点击“下一步”进入设置列表索引和开始结束标签,如下图:

  

  这时候我们需要打开采集的信息页第一页,把网址复制粘贴到列表索引页:

  以下标记要求我们查看网页生成的源代码,如下图:

  

  

搜索找到”各地新闻”,注意观察,我们发现各地新闻的信息列表,在分页下边找到列表开始标记:

  

再到底部分页上找列表结束标记:

  

  

填好后再点击“下一步”按钮继续我们的采集任务,然后找链接开始和结束标记,如下图:

  

  我们在列表拦截测试中看到我们成功拦截了一些信息列表。或者查看刚才的源码找到,如下图:

  

  我们看到链接开始为:

  结尾是:

  ">

  填写后,如下图:

  

  点击“下一步”继续设置文章短标题标签,如下图:

  

  此时,我们在“Previous”和“Next”按钮下看到了分析列表链接测试。我们可以试试看链接是否正确。如下图:

  

  接下来我们打开一个文章查看其源码,如下图:

  

  搜索文章title,然后找到代码,如下图:

  

  填写短标题的开始和结束标签,找到下面的文章content开始和结束标签,如下图:

  

  

  填写标题的开始和结束标签,找出文章内容的开始和结束标签,如下图:

  

  此时如果提示截取列表错误,则可能是找不到唯一性,需要继续测试。如果之前的设置没有问题,那么继续点击“下一步”,如下图:

  

  看到上面的界面,加油,我们采集成功了。继续点击“下一步”进行一些相关的采集设置。如果我们需要采集的文章里面有图片,就让它自动转换成图片文章,然后勾选,如下图:

  

  点击“完成”按钮完成采集规则设置。如下图:

  

  点击“确定”按钮返回采集管理首页,如下图:

  

  此时,您只需点击“采集”链接即可获得采集信息。

  我们上面介绍的是采集信息列表只有一页的情况,所以如果我们需要超过一页的采集信息,我们会返回来观察信息列表页面的生成规则,如下图所示:

  

  将鼠标移动到 2 以显示它

  然后我们就可以根据他的生成规则编辑我们的采集项目,这一步的时候选择批量生成,把URL复制粘贴进去,把页数改成{$ID},填写生成range 加上数字,比如需要采集的前8页,我们就填2-8,如下图:

  

  设置好后,我们就如上设置,点击“下一步”和“下一步”按钮,直到设置完成。

  返回采集管理首页,点击“采集”链接,如下图:

  

  然后系统进入启动采集界面,如下图:

  

  这里注意,采集时请不要刷新此页面。

  采集Complete系统会自动统计采集文章的总数,成功的有多少,失败的有多少,有多少张图片。

  我们点击“review in storage”按钮进入,可以查看我们成功的采集文章,也可以进入批量选择将文章存储到库中,如下图:

  

  如果文章需要全部入库,点击“全部入库”按钮,如下图:

  

  点击“确定”按钮。我们回到文章系统,看到文章已经成功放入数据库,如下图:

  

  我们返回信息采集管理,看到“历史”按钮。点击后可以清除采集的所有历史记录,如下图:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线