最新采集器(优采云采集器分析网页源代码采集工具教程)

优采云发布时间: 2021-08-31 10:16

　　优采云采集器是一款非常智能的 data采集软件。不需要编程就可以使用，很容易创建，采集data就是这么简单。专为优采云准备的，没有比这更简单的采集工具了。支持各种网站。

　　软件介绍

　　优采云采集器是一个易于使用、功能强大的网页采集工具。采集配置非常简单，整个过程可以通过内置浏览器可视化选择需要采集的内容，这样就可以在短时间内快速创建采集任务，无需分析网页源代码，无需熟悉网络协议，只需点击几下鼠标即可完成创建的任务。

　　软件功能

　　1、软件操作简单，鼠标点击即可轻松选择要抓拍的内容；

　　2、支持三种高速引擎：浏览器引擎、HTTP引擎、JSON引擎，内置优化的火狐浏览器，加上原有的内存优化，浏览器采集也可以高速运行，甚至更快转换为HTTP运行，享受更高的采集速度！抓取JSON数据时，也可以使用浏览器可视化的方式，用鼠标点击要抓取的内容，无需分析JSON数据结构。让非网页专业设计师也能轻松抓取自己需要的数据；

　　3、不需要分析网页请求和源码，但支持更多网页采集;

　　4、高级智能算法，一键生成目标元素。 X自动识别网页列表并自动识别分页中的下一页按钮......

　　5、支持丰富的数据导出方式，可以导出为txt文件、html文件、csv文件、excel文件，也可以导出到已有的数据库，如sqlite数据库、access数据库、sqlserver数据库、mysql数据库，您可以只需通过向导映射字段即可轻松导出到目标网站数据库。

　　产品优势

　　1、可视化向导

　　所有采集元素自动生成采集数据

　　2、智能识别

　　自动识别网页列表、采集字段、分页等

　　3、plan 任务

　　运行时间灵活定义，全自动运行

　　4、拦截请求

　　自定义屏蔽域名，方便过滤异地广告，提升采集速度

　　5、多引擎支持

　　支持多个采集引擎，内置高速浏览器内核、HTTP引擎和JSON引擎

　　6、多条数据导出

　　可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等

　　优采云采集器如何使用

　　第一步：设置起始网址

　　要采集一个网站数据，首先我们需要设置输入采集的URL，比如我们想要采集一个网站国内新闻，那么我们需要设置起始网址为国内新闻栏目列表的网址，网站首页一般不设置为起始网址，因为首页通常收录很多列表，比如最新的文章，热门的文章@，推荐文章和其他列表块。而且这些列表块显示的内容也很有限，采集这些列表一般不能采集完整的信息。

　　以采集芭新闻为例，从新浪首页找国内新闻。不过这个版块首页的内容还是乱七八糟的，还细分了三个子版块

　　来看看其中一个子栏目“大陆新闻”

　　此栏目页收录一个分页的内容列表。通过切换分页，我们可以采集到达该栏目下的所有文章，所以这种列表页非常适合我们采集开始的起始地址。

　　现在，我们将列表 URL 复制到任务编辑框第一步中的文本框

　　如果你想在一个任务中同时采集中国新闻，你也可以复制另外两个子列列表的地址，因为这些子列列表的格式是相似的。但是，为了方便分类数据的导出或发布，一般不建议将多列内容混合在一起。

　　对于起始网址，我们也可以批量添加或者从txt文件中导入。比如我们想要采集前5页，也可以这样自定义5个起始页。

　　需要注意的是，如果这里自定义了多个分页列表，以后不要在采集配置中启用分页。通常我们希望在某一列下采集所有文章。只需要定义该列的第一页为起始URL，稍后在采集配置中启用分页，就可以采集到每个分页列表的数据。

　　第 2 步：自动生成列表和字段

　　进入第二步后，对于部分网页，优采云采集器会智能分析页面列表，自动高亮选中的网页列表并生成列表数据，如

　　然后我们会修剪数据，比如删除一些不需要的字段

　　点击图标中的三角符号，会弹出采集字段进行详细配置。单击上方的删除按钮可删除该字段。其余参数将在后续章节中单独介绍。

　　如果某些网页自动生成的列表数据不是我们想要的数据，可以点击“清除字段”清除所有生成的字段。

　　第 3 步：分页设置

　　列表有分页时，启用分页后，可以采集访问所有的分页列表数据。

　　页面分页有两种类型

　　普通分页：有分页栏，显示“下一页”按钮。点击后可以进入下一页，比如新浪新闻列表中的上一页。

　　瀑布式分页：网页滚动条到达底部时自动加载下一页内容

　　如果是正常分页，我们选择尝试自动设置或手动设置

　　自动设置分页

　　默认情况下，创建新任务时不启用分页。点击“不启用分页”，弹出菜单，选择“自动识别分页”，如果识别成功，会弹出“成功识别并设置分页元素！”对话框，并高亮红色虚线框网页上的“下一步”按钮出现（部分网页按钮可能不显示虚线框），至此，自动分页功能已成功启用。

　　第 4 步：其他设置

　　在第三步的基本设置中，我们可以对浏览器进行一些设置，比如禁用图片、JS、Flash、框架等，以提高浏览网页的速度。

　　还可以设置浏览器标识（UserAgent）、代理IP、请求间隔等。

　　浏览器标识（UserAgent）：网页通过读取浏览器标识获取客户端的一些信息

　　请求间隔时间：用于降低请求频率，即降低采集的速度，避免采集太快被阻塞，如果不需要降低速度，可以设置为0小时

　　多值连接器：当字段设置多个xpah提取多个元素时，这里使用自定义连接器连接多个元素值

　　HTTP引擎线程数：使用HTTP请求时，多线程运行的线程数，同一个HTTP请求任务可以拆分，同时使用多个线程采集，提高采集速度，只适用到 HTTP 引擎，浏览器引擎不适合。

　　常见问题

　　1、采集如何避免数据重复？

　　运行采集任务时，如果任务前有采集数据，如果采集前原数据没有清除，新的采集数据会被添加到本地采集库，一些已经被采集的数据可能会再次采集重复进库。另外，如果目标网页本身有重复数据，也可能造成数据重复，那么如何避免采集采集的数据重复呢？

　　方法很简单，我们希望哪个字段内容不允许重复，只需点击字段标题上的三角形符号，然后选中“过滤重复项”复选框，然后单击“确定”即可。

　　2、how采集content 页面等多层次网页

　　如果我们想要采集二级页面，比如内容页面，或者采集更深层次、三级、四级等，在当前页面字段列表中，必须有一个字段提取链接地址，即提取属性为Href的字段，如图

　　点击字段标题栏，选中该栏后会出现“Deep Link Page采集”按钮

　　点击此按钮后，会自动创建一个配置选项卡，并自动打开之前选择的字段的 URL。

　　采集模式也自动显示为“单人模式”

0

2021-08-31

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

最新采集器(优采云采集器分析网页源代码采集工具教程)

0 个评论

发起人

AI时代内容工厂

最新采集器(优采云采集器分析网页源代码采集工具教程)

0 个评论

发起人

相关问题