智能采集组合文章(优采云采集器官网版产品优势可视化向导所有采集元素,自动生成采集数据计划任务 )
优采云 发布时间: 2022-02-05 08:02智能采集组合文章(优采云采集器官网版产品优势可视化向导所有采集元素,自动生成采集数据计划任务
)
优采云采集器官网版是一个非常实用的网络信息采集工具,优采云采集器官网版内置浏览器,可以帮助直观的方式 用户采集各类网页内容,操作简单,无需掌握任何专业的网络知识,只需点击鼠标即可轻松创建采集任务。优采云采集器官网版可以自定义采集到你需要的所有网页信息,可以智能自动识别网页列表、采集字段和分页,等,进入采集网站,点击鼠标轻松选择要抓取的内容;优采云采集器官网版本可视化采集器,采集就像积木,功能模块可选组合、可视化提取或操作网页元素、自动登录、自动发布、自动识别验证码,是一款可以快速创建自动化脚本甚至生成独立应用的万能浏览器;用户可以使用优采云采集器官网版来采集网页上的一些数据内容,这些数据内容可以单独保存,以便用户在浏览时需要采集资料网页,他们可以通过优采云采集器官网版保存了这些资料供使用,感兴趣的朋友快来下载体验吧!并自动识别验证码,是一款可以快速创建自动化脚本甚至生成独立应用的万能浏览器;用户可以使用优采云采集器官网版来采集网页上的一些数据内容,这些数据内容可以单独保存,以便用户在浏览时需要采集资料网页,他们可以通过优采云采集器官网版保存了这些资料供使用,感兴趣的朋友快来下载体验吧!并自动识别验证码,是一款可以快速创建自动化脚本甚至生成独立应用的万能浏览器;用户可以使用优采云采集器官网版来采集网页上的一些数据内容,这些数据内容可以单独保存,以便用户在浏览时需要采集资料网页,他们可以通过优采云采集器官网版保存了这些资料供使用,感兴趣的朋友快来下载体验吧!
优采云采集器官网版产品优势
视觉向导
所有 采集 元素,自动生成的 采集 数据
计划任务
运行时间灵活定义,全自动运行
多引擎支持
支持多种采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎
智能识别
自动识别网页列表、采集字段、分页等。
拦截请求
自定义屏蔽域名,方便过滤站外广告,提高采集的速度
各种数据导出
可以导出到Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等。
优采云采集器官网版软件功能
1、软件操作简单,鼠标点击即可轻松选择要抓拍的内容;
2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上原有的内存优化,浏览器采集也能高速运行,甚至快速切换到 HTTP 并享受更高的 采集 速度!抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容,无需分析JSON数据结构,非专业网页设计人员也能轻松抓取所需内容数据;
3、不需要分析网页请求和源码,但支持更多网页采集;
4、先进的智能算法可以一键生成目标元素XPATH,自动识别网页列表,自动识别分页中的下一页按钮...
5、支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到已有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库,通过简单映射字段的类似向导的方式可以轻松导出到目标网站数据库。
优采云采集器官网使用方法
一、设置起始地址
要采集一个网站数据,首先我们需要设置输入采集的URL,比如我们要采集一个网站国内新闻,那么我们就需要将起始网址设置为国内新闻栏目列表的网址,但是一般不要将网站首页设置为起始网址,因为首页通常收录很多列表,比如最新的文章、流行的文章、推荐文章等列表块,而这些列表块显示的内容也很有限,采集这些列表一般不能采集完整资料
我们以采集新浪新闻为例,从新浪首页找国内新闻,但是这个栏目首页的内容还是比较杂乱的,也分为三个子栏目
我们从进入其中一个子栏目来看看大陆新闻
此列页面收录分页内容列表。通过切换分页,我们可以采集去这个栏目下的所有文章,所以这种列表页非常适合我们的采集起始URL
现在,我们将列表 URL 复制到任务编辑框第一步的文本框中
如果你想在一个任务中采集国内新闻中的其他子栏目,你也可以复制另外两个子栏目的列表地址,因为这些子栏目列表的格式是类似的,但是对于为方便导出或发布分类数据,一般不建议多列内容混合在一起
对于起始网址,我们也可以批量添加或从txt文件中导入。比如我们要采集前5页,我们也可以这样自定义5个起始页。
需要注意的是,如果这里自定义了多个分页列表,请不要在下面的采集配置中启用分页,通常我们要在某个列下采集全部文章只需要定义该列的第一页为起始URL,并在下面的采集配置中启用分页,可以采集到每个分页列表的数据
二、自动生成列表和字段
进入第二步后,对于一些网页,优采云采集器会智能分析页面的列表,自动高亮选中的网页列表并生成列表数据,如
然后我们修剪数据,比如删除一些不需要的字段
点击图标中的三角符号,会弹出采集字段的详细配置。单击上面的删除按钮以删除该字段。其余参数将在后续章节中单独介绍。
如果某些网页自动生成的列表数据不是我们想要的数据,可以点击Clear Fields清除所有生成的字段。
如果自动分析的高亮列表不是我们想要采集的列表,那么我们可以手动选择列表。如果要取消高亮的列表框,可以点击搜索列表,列出XPATH,清除里面的xpath。确认后
三、手动生成列表
单击查找列表按钮并选择手动选择列表
根据提示,鼠标左键点击网页列表的第一行数据
点击第一行后,根据提示点击第二行或其他类似的行
点击列表中的任意两行后,整个列表都会高亮显示,列表中的字段也会生成。如果生成的字段不正确,请单击清除字段以清除下面的所有字段。第 2 章描述了手动选择字段
四、手动生成的字段
单击添加字段按钮
点击列表中任意一行要提取的元素,例如提取标题和链接地址,鼠标左键点击标题
点击网页链接时,使用时会提示是否抓取链接地址
如果要同时提取链接标题和链接地址,点击是,如果只需要提取标题文字,点击否,这里我们点击是
系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您点击底部的表格字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。
如果标签列表中还有其他字段,点击添加字段,重复以上操作
五、分页设置
当列表有分页时,开启分页后,可以采集到所有的分页列表数据
页面分页有两种类型
普通分页:有分页栏,显示下一页按钮。点击后可以进入下一个页面,比如之前新浪新闻列表中的分页
瀑布式分页:当网页的滚动条被拉到底部时,会自动加载下一页的内容
如果是正常分页,我们选择尝试自动设置还是手动设置
1、自动设置分页
创建新任务时,默认不启用分页。点击禁用分页,会弹出一个菜单,选择自动识别分页。如果识别成功,会弹出对话框提示分页元素已成功识别和设置,并弹出网页上的下一页按钮。出现一个突出显示的红色虚线框,自动分页已成功启用。
如果是自动识别,会出现如下绿色提示框
2、手动设置分页
在菜单中选择手动设置分页
然后会自动出现Find Pagination按钮,点击它弹出菜单,选择Mark Pagination