文章采集软件(优采云采集网页抓取工具(图)采集(组图))

优采云 发布时间: 2021-08-29 00:10

  文章采集软件(优采云采集网页抓取工具(图)采集(组图))

  以采集web爬虫工具优采云采集器官网faq为例说明采集器采集的原理和流程。

  本例以演示地址和优采云采集器V9为工具进行说明。

  (1)创建一个新的采集rule

  选择一个组右键,选择“新建任务”,如下图:

  

  解析URL变量的规律(2)add start URL

  这里我们需要采集 5页数据。

  首页地址:

  第二页地址:

  第三页地址:

  由此可以推断p=后面的数字是分页的意思,我们用[地址参数]来表示:

  所以设置如下:

  

  编号变化:从1开始,即第一页;每增加1,即每页变化的次数;一共5个项目,也就是一共采集5页。地址格式:用[地址参数]表示改变的页码。

  预览:采集器会根据上面的设置生成一部分URL,让你判断添加的是否正确。

  然后确认。

  (3)[普通模式]获取内容网址

  普通模式:该模式默认抓取一级地址,即从起始页的源码中获取到内容页A的链接。

  这里我教大家如何通过自动获取地址链接+设置区的方式获取。

  查看页面源码,找到文章地址所在区域:

  

  注:更详细的分析说明请参考本手册:设置如下:

  操作指南> 软件操作> URL采集Rules> 获取内容URL

  

  点击网址采集test查看测试效果

  

  (以3)内容采集 URL 为例说明标签采集

  注:更详细的分析说明,可在官网下载并参考用户手册。

  操作指南>软件操作>Content采集Rules>标签编辑

  我们首先查看其页面的源代码,找到我们的“title”所在的代码:

  导入Excle是一个对话框~打开Excle时出错-优采云采集器帮助中心

  分析:开始的字符串是:

  结束字符串是:

  数据处理-内容替换/排除:需要替换-优采云采集器帮助中心清空

  

  

  分析:开始的字符串是:

  设置内容标签的原理类似。在源码中找到内容的位置

  结束字符串是:

  数据处理-HTML标签排除:过滤不需要的A链接等

  

  设置另一个“源”字段

  

  这么简单的文章采集规则就做好了。使用通用的网络爬虫工具优采云采集器,按照本例的步骤扩展其他类型的数据采集。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线