软件介绍优采云采集器官方版软件功能可视化所有采集元素

优采云 发布时间: 2021-07-27 07:35

  软件介绍优采云采集器官方版软件功能可视化所有采集元素

  软件介绍

  优采云采集器官版是一款非常实用的网络小工具,软件界面干净,操作简单,功能强大,具有可视化配置,易于创建,无需编程,智能生成,数据采集等功能 。使用优采云采集器,用户可以很方便地采集获取自己需要的网页上的所有信息,使用起来非常方便。

  

  优采云采集器官方版软件功能

  1、软件操作简单,鼠标点击即可轻松选择要采集的内容;

  2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上原有的内存优化,浏览器采集也可以高速运行,甚至更快转换为HTTP模式运行,享受更高的采集速度!抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容。无需分析JSON数据结构,让非网页专业设计人员轻松抓取所需数据;

  3、不需要分析网页请求和源码,但支持更多的网页采集;

  4、高级智能算法,可以一键生成目标元素XPATH,自动识别网页列表,自动识别分页中的下一页按钮......

  5、支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到已有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库、简单映射字段通过向导,您可以轻松导出到目标网站 数据库。 .

  优采云采集器官方版软件功能

  可视化向导

  所有采集元素自动生成采集数据

  预定任务

  运行时间灵活定义,全自动运行

  多引擎支持

  支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎

  智能识别

  可以自动识别网页列表、采集字段和分页等

  拦截请求

  自定义屏蔽域名,方便过滤异地广告,提高采集速度

  多数据导出

  可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等

  优采云采集器官版软件优势

  1、优采云采集器为用户提供丰富的网络数据采集功能

  2、如果需要复制网页的数据,可以使用这个软件采集

  3、大部分网页内容可以直接复制,优采云采集器一键使用采集

  4、直接输入网址采集,准确采集任何网页内容

  5、支持规则设置,自定义采集规则,添加采集字段内容,添加采集网页元素

  6、Bulk采集data,一键输入多个网址采集

  7、软件中显示任务列表,点击直接开始运行采集

  8、支持数据查看,可以在软件中查看采集的数据内容,可以导出数据

  9、支持字符和词库替换功能,一键编辑文字采集到

  优采云采集器官方版教程

  第一步:设置起始网址

  要采集一个网站数据,首先我们需要设置输入采集的URL,比如我们想要采集一个网站国内新闻,那么我们需要设置起始网址为国内新闻栏目列表的网址,而网站首页一般不设置为起始网址,因为首页通常收录很多列表,比如最新的文章,热门的文章,推荐文章等列表块,而且这些列表块显示的内容也很有限,采集这些列表一般不能采集完整信息。

  我们以采集芭新闻为例,从新浪首页找国内新闻,但是这个栏目首页的内容还是比较乱,还细分了三个小栏目

  

  来看看其中一个子栏目“大陆新闻”

  

  此栏目页收录一个分页的内容列表。通过切换分页,我们可以采集到达该栏目下的所有文章,所以这种列表页非常适合我们开始采集起始网址。

  现在,我们将列表 URL 复制到任务编辑框第一步中的文本框

  

  如果你想在一个任务中同时采集中国新闻,你也可以复制另外两个子列列表的地址,因为这些子列列表的格式是相似的。但是,为了方便分类数据的导出或发布,一般不建议将多列内容混合在一起。

  对于起始网址,我们也可以批量添加或者从txt文件中导入。比如我们想要采集前5页,也可以这样自定义5个起始页。

  

  需要注意的是,如果这里自定义了多个分页列表,以后不要在采集配置中启用分页。通常我们希望在某一列下采集所有文章。只需要定义列的第一页为起始URL,稍后在采集配置中启用分页,就可以采集到每个分页列表的数据。

  第2步:①自动生成列表和字段

  进入第二步后,对于部分网页,优采云采集器会智能分析页面列表,自动高亮选中的网页列表并生成列表数据,如

  

  然后我们会修剪数据,比如删除一些不需要的字段

  

  点击图标中的三角符号,会弹出采集字段进行详细配置。单击上方的删除按钮可删除此字段。其余参数将在后续章节中单独介绍。

  如果某些网页自动生成的列表数据不是我们想要的数据,可以点击“清除字段”清除所有生成的字段。

  

  如果自动分析的高亮列表不是我们想要的采集列表,那么我们手动选择列表。如果要取消突出显示的列表框,可以单击Find List-List XPATH,清除其中的xpath并确认。

  第2步:②手动生成列表

  点击“查找列表”按钮并选择“手动选择列表”

  

  

  根据提示,鼠标左键点击网页列表中的第一行数据

  点击第一行后,根据提示点击第二行或其他类似行

  

  点击列表中的任意两行后,整个列表都会高亮显示,列表中的字段也会生成。如果生成的字段不正确,点击清除字段,清除下面所有字段,手动选择字段将在下一章介绍。

  

  第 2 步:③ 手动生成字段

  点击“添加字段”按钮

  

  在列表的任意一行点击要提取的元素,例如要提取标题和链接地址,鼠标左键点击标题即可。

  

  点击网页链接时,使用时会提示是否抓取链接地址

  

  如果要同时提取链接标题和链接地址,点击“是”,如果只需要提取标题文字,点击“否”,这里我们点击“是”

  

  系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您点击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。

  如何标记列表中的其他字段?单击添加新字段并重复上述操作。

  第 2 步:④ 分页设置

  列表有分页时,启用分页后,可以采集访问所有的分页列表数据。

  页面分页有两种类型

  普通分页:有分页栏,显示“下一页”按钮。点击后可以进入下一页,比如新浪新闻列表中的上一页。

  瀑布式分页:网页滚动条到达底部时自动加载下一页内容

  如果是正常分页,我们选择尝试自动设置或手动设置

  自动设置分页

  

  默认情况下,创建新任务时不启用分页。点击“禁用分页”,弹出菜单,选择“自动识别分页”,如果识别成功,会弹出“成功识别并设置分页元素!”对话框。 ”,在网页的“下一步”按钮上出现高亮的红色虚线框(部分网页按钮可能不显示虚线框),至此自动分页成功

  

  如果是自动识别,会出现如下绿色提示框

  

  手动设置分页

  在菜单中选择“手动设置分页”

  

  然后会自动出现“Find Pagination”按钮,点击它会弹出一个菜单,选择“Mark Pagination”

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线