最新采集器(优采云采集器分析网页源代码采集工具教程)
优采云 发布时间: 2021-08-31 10:16优采云采集器 是一款非常智能的 data采集 软件。不需要编程就可以使用,很容易创建,采集data就是这么简单。专为优采云准备的,没有比这更简单的采集工具了。支持各种网站。
软件介绍
优采云采集器 是一个易于使用、功能强大的网页采集 工具。 采集 配置非常简单,整个过程可以通过内置浏览器可视化选择需要采集的内容,这样就可以在短时间内快速创建采集任务,无需分析网页源代码,无需熟悉网络协议,只需点击几下鼠标即可完成创建的任务。
软件功能
1、软件操作简单,鼠标点击即可轻松选择要抓拍的内容;
2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上原有的内存优化,浏览器采集也可以高速运行,甚至更快转换为HTTP运行,享受更高的采集速度!抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容,无需分析JSON数据结构。让非网页专业设计师也能轻松抓取自己需要的数据;
3、不需要分析网页请求和源码,但支持更多网页采集;
4、高级智能算法,一键生成目标元素。 X自动识别网页列表并自动识别分页中的下一页按钮......
5、支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到已有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库,您可以只需通过向导映射字段即可轻松导出到目标网站 数据库。
产品优势
1、可视化向导
所有采集元素自动生成采集数据
2、智能识别
自动识别网页列表、采集字段、分页等
3、plan 任务
运行时间灵活定义,全自动运行
4、拦截请求
自定义屏蔽域名,方便过滤异地广告,提升采集速度
5、多引擎支持
支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎
6、多条数据导出
可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等
优采云采集器如何使用
第一步:设置起始网址
要采集一个网站数据,首先我们需要设置输入采集的URL,比如我们想要采集一个网站国内新闻,那么我们需要设置起始网址为国内 新闻栏目列表的网址,网站首页一般不设置为起始网址,因为首页通常收录很多列表,比如最新的文章,热门的文章@,推荐文章 和其他列表块。而且这些列表块显示的内容也很有限,采集这些列表一般不能采集完整的信息。
以采集芭新闻为例,从新浪首页找国内新闻。不过这个版块首页的内容还是乱七八糟的,还细分了三个子版块
来看看其中一个子栏目“大陆新闻”
此栏目页收录一个分页的内容列表。通过切换分页,我们可以采集到达该栏目下的所有文章,所以这种列表页非常适合我们采集开始的起始地址。
现在,我们将列表 URL 复制到任务编辑框第一步中的文本框
如果你想在一个任务中同时采集中国新闻,你也可以复制另外两个子列列表的地址,因为这些子列列表的格式是相似的。但是,为了方便分类数据的导出或发布,一般不建议将多列内容混合在一起。
对于起始网址,我们也可以批量添加或者从txt文件中导入。比如我们想要采集前5页,也可以这样自定义5个起始页。
需要注意的是,如果这里自定义了多个分页列表,以后不要在采集配置中启用分页。通常我们希望在某一列下采集所有文章。只需要定义该列的第一页为起始URL,稍后在采集配置中启用分页,就可以采集到每个分页列表的数据。
第 2 步:自动生成列表和字段
进入第二步后,对于部分网页,优采云采集器会智能分析页面列表,自动高亮选中的网页列表并生成列表数据,如
然后我们会修剪数据,比如删除一些不需要的字段
点击图标中的三角符号,会弹出采集字段进行详细配置。单击上方的删除按钮可删除该字段。其余参数将在后续章节中单独介绍。
如果某些网页自动生成的列表数据不是我们想要的数据,可以点击“清除字段”清除所有生成的字段。
第 3 步:分页设置
列表有分页时,启用分页后,可以采集访问所有的分页列表数据。
页面分页有两种类型
普通分页:有分页栏,显示“下一页”按钮。点击后可以进入下一页,比如新浪新闻列表中的上一页。
瀑布式分页:网页滚动条到达底部时自动加载下一页内容
如果是正常分页,我们选择尝试自动设置或手动设置
自动设置分页
默认情况下,创建新任务时不启用分页。点击“不启用分页”,弹出菜单,选择“自动识别分页”,如果识别成功,会弹出“成功识别并设置分页元素!”对话框,并高亮红色虚线框网页上的“下一步”按钮出现(部分网页按钮可能不显示虚线框),至此,自动分页功能已成功启用。
第 4 步:其他设置
在第三步的基本设置中,我们可以对浏览器进行一些设置,比如禁用图片、JS、Flash、框架等,以提高浏览网页的速度。
还可以设置浏览器标识(UserAgent)、代理IP、请求间隔等。
浏览器标识(UserAgent):网页通过读取浏览器标识获取客户端的一些信息
请求间隔时间:用于降低请求频率,即降低采集的速度,避免采集太快被阻塞,如果不需要降低速度,可以设置为0小时
多值连接器:当字段设置多个xpah提取多个元素时,这里使用自定义连接器连接多个元素值
HTTP引擎线程数:使用HTTP请求时,多线程运行的线程数,同一个HTTP请求任务可以拆分,同时使用多个线程采集,提高采集速度,只适用到 HTTP 引擎,浏览器引擎不适合。
常见问题
1、采集 如何避免数据重复?
运行采集任务时,如果任务前有采集数据,如果采集前原数据没有清除,新的采集数据会被添加到本地采集库,一些已经被采集 的数据可能会再次采集 重复进库。另外,如果目标网页本身有重复数据,也可能造成数据重复,那么如何避免采集采集的数据重复呢?
方法很简单,我们希望哪个字段内容不允许重复,只需点击字段标题上的三角形符号,然后选中“过滤重复项”复选框,然后单击“确定”即可。
2、how采集content 页面等多层次网页
如果我们想要采集二级页面,比如内容页面,或者采集更深层次、三级、四级等,在当前页面字段列表中,必须有一个字段提取链接地址,即提取属性为Href的字段,如图
点击字段标题栏,选中该栏后会出现“Deep Link Page采集”按钮
点击此按钮后,会自动创建一个配置选项卡,并自动打开之前选择的字段的 URL。
采集模式也自动显示为“单人模式”