最新采集器(优采云采集器分析网页源代码采集工具教程)

优采云 发布时间: 2021-08-31 10:16

  最新采集器(优采云采集器分析网页源代码采集工具教程)

  优采云采集器 是一款非常智能的 data采集 软件。不需要编程就可以使用,很容易创建,采集data就是这么简单。专为优采云准备的,没有比这更简单的采集工具了。支持各种网站。

  

  软件介绍

  优采云采集器 是一个易于使用、功能强大的网页采集 工具。 采集 配置非常简单,整个过程可以通过内置浏览器可视化选择需要采集的内容,这样就可以在短时间内快速创建采集任务,无需分析网页源代码,无需熟悉网络协议,只需点击几下鼠标即可完成创建的任务。

  软件功能

  1、软件操作简单,鼠标点击即可轻松选择要抓拍的内容;

  2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上原有的内存优化,浏览器采集也可以高速运行,甚至更快转换为HTTP运行,享受更高的采集速度!抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容,无需分析JSON数据结构。让非网页专业设计师也能轻松抓取自己需要的数据;

  3、不需要分析网页请求和源码,但支持更多网页采集;

  4、高级智能算法,一键生成目标元素。 X自动识别网页列表并自动识别分页中的下一页按钮......

  5、支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到已有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库,您可以只需通过向导映射字段即可轻松导出到目标网站 数据库。

  产品优势

  1、可视化向导

  所有采集元素自动生成采集数据

  2、智能识别

  自动识别网页列表、采集字段、分页等

  3、plan 任务

  运行时间灵活定义,全自动运行

  4、拦截请求

  自定义屏蔽域名,方便过滤异地广告,提升采集速度

  5、多引擎支持

  支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎

  6、多条数据导出

  可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等

  优采云采集器如何使用

  第一步:设置起始网址

  要采集一个网站数据,首先我们需要设置输入采集的URL,比如我们想要采集一个网站国内新闻,那么我们需要设置起始网址为国内 新闻栏目列表的网址,网站首页一般不设置为起始网址,因为首页通常收录很多列表,比如最新的文章,热门的文章​​@,推荐文章 和其他列表块。而且这些列表块显示的内容也很有限,采集这些列表一般不能采集完整的信息。

  以采集芭新闻为例,从新浪首页找国内新闻。不过这个版块首页的内容还是乱七八糟的,还细分了三个子版块

  

  来看看其中一个子栏目“大陆新闻”

  此栏目页收录一个分页的内容列表。通过切换分页,我们可以采集到达该栏目下的所有文章,所以这种列表页非常适合我们采集开始的起始地址。

  现在,我们将列表 URL 复制到任务编辑框第一步中的文本框

  

  如果你想在一个任务中同时采集中国新闻,你也可以复制另外两个子列列表的地址,因为这些子列列表的格式是相似的。但是,为了方便分类数据的导出或发布,一般不建议将多列内容混合在一起。

  对于起始网址,我们也可以批量添加或者从txt文件中导入。比如我们想要采集前5页,也可以这样自定义5个起始页。

  

  需要注意的是,如果这里自定义了多个分页列表,以后不要在采集配置中启用分页。通常我们希望在某一列下采集所有文章。只需要定义该列的第一页为起始URL,稍后在采集配置中启用分页,就可以采集到每个分页列表的数据。

  第 2 步:自动生成列表和字段

  进入第二步后,对于部分网页,优采云采集器会智能分析页面列表,自动高亮选中的网页列表并生成列表数据,如

  

  然后我们会修剪数据,比如删除一些不需要的字段

  点击图标中的三角符号,会弹出采集字段进行详细配置。单击上方的删除按钮可删除该字段。其余参数将在后续章节中单独介绍。

  如果某些网页自动生成的列表数据不是我们想要的数据,可以点击“清除字段”清除所有生成的字段。

  第 3 步:分页设置

  列表有分页时,启用分页后,可以采集访问所有的分页列表数据。

  页面分页有两种类型

  普通分页:有分页栏,显示“下一页”按钮。点击后可以进入下一页,比如新浪新闻列表中的上一页。

  瀑布式分页:网页滚动条到达底部时自动加载下一页内容

  如果是正常分页,我们选择尝试自动设置或手动设置

  自动设置分页

  

  默认情况下,创建新任务时不启用分页。点击“不启用分页”,弹出菜单,选择“自动识别分页”,如果识别成功,会弹出“成功识别并设置分页元素!”对话框,并高亮红色虚线框网页上的“下一步”按钮出现(部分网页按钮可能不显示虚线框),至此,自动分页功能已成功启用。

  第 4 步:其他设置

  在第三步的基本设置中,我们可以对浏览器进行一些设置,比如禁用图片、JS、Flash、框架等,以提高浏览网页的速度。

  还可以设置浏览器标识(UserAgent)、代理IP、请求间隔等。

  浏览器标识(UserAgent):网页通过读取浏览器标识获取客户端的一些信息

  请求间隔时间:用于降低请求频率,即降低采集的速度,避免采集太快被阻塞,如果不需要降低速度,可以设置为0小时

  多值连接器:当字段设置多个xpah提取多个元素时,这里使用自定义连接器连接多个元素值

  HTTP引擎线程数:使用HTTP请求时,多线程运行的线程数,同一个HTTP请求任务可以拆分,同时使用多个线程采集,提高采集速度,只适用到 HTTP 引擎,浏览器引擎不适合。

  

  常见问题

  1、采集 如何避免数据重复?

  运行采集任务时,如果任务前有采集数据,如果采集前原数据没有清除,新的采集数据会被添加到本地采集库,一些已经被采集 的数据可能会再次采集 重复进库。另外,如果目标网页本身有重复数据,也可能造成数据重复,那么如何避免采集采集的数据重复呢?

  方法很简单,我们希望哪个字段内容不允许重复,只需点击字段标题上的三角形符号,然后选中“过滤重复项”复选框,然后单击“确定”即可。

  

  2、how采集content 页面等多层次网页

  如果我们想要采集二级页面,比如内容页面,或者采集更深层次、三级、四级等,在当前页面字段列表中,必须有一个字段提取链接地址,即提取属性为Href的字段,如图

  

  点击字段标题栏,选中该栏后会出现“Deep Link Page采集”按钮

  点击此按钮后,会自动创建一个配置选项卡,并自动打开之前选择的字段的 URL。

  采集模式也自动显示为“单人模式”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线