免规则采集器列表算法(优采云采集器官方版软件功能可视化所有采集元素,自动生成采集 )

优采云 发布时间: 2021-10-26 04:30

  免规则采集器列表算法(优采云采集器官方版软件功能可视化所有采集元素,自动生成采集

)

  软件介绍

  优采云采集器正式版是一款非常实用的网络小工具,软件界面干净,操作简单,功能强大,配置可视化,轻松创建,无需编程,智能生成,数据采集@ > 等功能。用户可以通过优采云采集器轻松采集@>访问自己需要的网页上的所有信息,使用起来非常方便。

  

  优采云采集器正式版软件特点

  1、软件操作简单,鼠标点击即可轻松选择要抓取的内容;

  2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上独创的内存优化,浏览器采集@>也可以高速运行,甚至可以快速转换HTTP 操作,享受更高的采集@> 速度!抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容。无需分析JSON数据结构,让非网页专业设计人员轻松抓取所需数据;

  3、无需分析网页请求和源码,但支持更多网页采集@>;

  4、 先进的智能算法,可以一键生成目标元素XPATH,自动识别网页列表,自动识别分页中的下一页按钮...

  5、 支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到现有数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql等数据库。该向导只需映射字段,并可以轻松导出到目标 网站 数据库。.

  优采云采集器正式版软件特点

  可视化向导

  所有采集@>元素,自动生成采集@>数据

  计划任务

  运行时间灵活定义,全自动运行

  多引擎支持

  支持多个采集@>引擎,内置高速浏览器内核、HTTP引擎和JSON引擎

  智能识别

  可以自动识别网页列表、采集@>字段和分页等。

  拦截请求

  自定义屏蔽域名,方便过滤异地广告,提升采集@>速度

  各种数据导出

  可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等。

  优采云采集器正式版软件优势

  1、优采云采集器为用户提供丰富的网络数据采集@>功能

  2、如果需要复制网页的数据,可以使用本软件采集@>

  3、网页大部分内容可以直接复制,一键使用采集@>通过优采云采集器

  4、直接输入网址采集@>,准确采集@>任何网页内容

  5、支持规则设置,自定义采集@>规则,添加采集@>字段内容,添加采集@>网页元素

  6、批量采集@>数据,一键输入多个网址采集@>

  7、软件中显示任务列表,点击直接开始运行采集@>

  8、支持数据查看,可以在软件中查看采集@>的数据内容,可以导出数据

  9、支持字符和词库替换功能,文本一键编辑到采集@>

  优采云采集器官方版教程

  第 1 步:设置起始 URL

  要采集@>一个网站数据,首先我们需要设置输入采集@>的URL。比如我们要采集@>一个网站国内新闻,那么我们就要设置起始网址为国内新闻栏目列表的网址,一般不设置网站首页作为起始网址,因为首页通常收录很多列表,比如最新的文章、热门文章、推荐文章等各种列表块,以及这些列表块中显示的内容也非常有限。一般情况下,采集@>这些列表不可能是采集@>完整的信息。

  我们以采集@>新浪新闻为例,从新浪首页查找国内新闻。不过这个版块首页的内容还是乱七八糟的,还细分了三个子版块。

  

  来看看其中一个子栏目“大陆新闻”

  

  此列页面收录带分页的内容列表。通过切换分页,我们可以采集@>去到这个栏目下的所有文章,所以这种列表页非常适合我们采集@>的起始网址。

  现在,我们将列表 URL 复制到任务编辑框的第一步中的文本框

  

  如果你想在一个任务中同时采集@>国内新闻中的其他子栏,也可以复制到另外两个子栏列表的地址中,因为这些子栏列表格式都差不多. 但是,为了方便分类数据的导出或发布,一般不建议将多栏内容混在一起。

  对于起始地址,我们也可以批量添加或者从txt文件中导入。比如我们要采集@>前5页,我们也可以像这样自定义5个起始页

  

  需要注意的是,如果这里自定义了多个分页列表,下面的采集@>配置中不要开启分页。通常我们希望将某个列下的所有文章都采集@>,此时只需要定义该列的第一页为起始URL即可。在下面的采集@>配置中启用分页后,您可以采集@>到每个分页列表的数据。

  第二步:①自动生成列表和字段

  进入第二步后,对于部分网页,优采云采集器会智能分析网页列表,自动高亮网页列表并生成列表数据,如

  

  然后我们修剪数据,比如删除一些不需要的字段

  

  点击图标中的三角符号,会弹出采集@>字段的详细配置。单击上方的删除按钮可删除该字段。其余参数将在后面的章节中单独介绍。

  如果某些网页自动生成的列表数据不是我们想要的数据,可以点击“清除字段”来清除所有生成的字段。

  

  如果自动分析的高亮列表不是我们想要的列表采集@>,那么我们手动选择列表。如果要取消突出显示的列表框,可以单击 Find List-List XPATH,清除其中的 xpath 并确认。

  第二步:②手动生成列表

  单击“查找列表”按钮并选择“手动选择列表”

  

  

  按照提示,鼠标左键点击网页列表中的第一行数据

  点击第一行后,根据提示点击第二行或其他类似的行

  

  单击列表中的任意两行后,将突出显示整个列表,并且也会生成列表中的字段。如果生成的字段不正确,点击清除字段清除下面所有的字段,下一章介绍手动选择字段。

  

  第二步:③手动生成字段

  单击“添加字段”按钮

  

  在列表的任意一行点击要提取的元素,比如要提取标题和链接地址,鼠标左键点击标题

  

  点击网页链接时,使用时会提示是否抓取链接地址

  

  如果要同时提取链接标题和链接地址,点击“是”,如果只需要提取标题文字,点击“否”,这里我们点击“是”

  

  系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。

  如果要标记列表中的其他字段,请单击添加新字段并重复上述操作。

  第二步:④分页设置

  当列表有分页时,启用分页后,可以采集@>去查看所有的分页列表数据。

  页面分页有两种类型

  正常分页:有分页栏,显示“下一页”按钮。点击后可以进入下一页,比如新浪新闻列表中的上一页

  瀑布式分页:网页滚动条到达底部时自动加载下一页内容

  如果是正常分页,我们选择尝试自动设置或手动设置

  自动设置分页

  

  创建新任务时默认不启用分页。点击“不启用分页”,会弹出一个菜单,选择“自动识别分页”,如果识别成功,会弹出一个对话框提示“成功识别并设置分页元素!”,一个高亮的红色虚线框网页的“下一步”按钮出现(部分网页按钮可能不显示虚线框),自动分页已成功启用。

  

  如果是自动识别,会出现如下绿色提示框

  

  手动设置分页

  在菜单中选择“手动设置分页”

  

  然后会自动出现“Find Pagination”按钮,点击它弹出一个菜单,选择“Mark Pagination”

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线