优采云 v2.8.0.0 官方版

优采云 发布时间: 2020-08-04 11:01

  优采云是一款十分简单的网页数据采集工具,它具有可视化的工作界面,用户通过键盘就可以完成对网页数据的采集,该程序的使用门槛十分低,任何用户都可以轻松使用它就行数据采集而不需要用户拥有爬虫程序的编撰能力;通过这款软件,用户可以在大多数网站中采集数据,包括可以在一些单页应用Ajax加载的动态网站中获取用户须要的数据信息;软件中外置高速的浏览器引擎,用户可以自由切换多种浏览模式,让用户轻松以一个直观的方法去对网站网页进行采集;该程序安全无毒,使用简单,需要的同学欢迎下载使用。

  

  软件功能

  1、可视化向导:自动为所有集合元素生成集合数据。

  2、计划任务:灵活定义运行时间,自动运行。

  3、多引擎支持:支持多个搜集引擎,内置的高速浏览器内核,HTTP引擎,JSON引擎。

  4、智能辨识:可以手动辨识网页列表,收集数组,页面等。

  5、拦截恳求:自定义拦截的域名,以便捷对场外广告的过滤,提高搜集速率。

  6、各种数据导入:可以导入到TXT,Excel,mysql,SQL Server,SQLite,access,网站等。

  软件特色

  零门槛

  即使是不会网路爬虫技术,也可以轻松浏览互联网网站并搜集网站数据,软件操作简单,可通过键盘点击的形式轻松选定要抓取的内容。

  多引擎,高速,稳定

  内置于高速浏览器引擎中,您也可以切换到HTTP引擎模式以更有效地搜集数据。它还具有一个外置的JSON引擎,该引擎无需剖析JSON数据结构并直观地选择JSON内容。

  先进的智能算法

  先进的智能算法可以生成目标元素XPath,自动辨识网页列表,并手动辨识分页中的下一页按键。 它不需要剖析Web恳求和源代码,但是支持更多的Web页面搜集。

  适用于各类网站

  它可以搜集99%的Internet站点,包括动态类型,例如单页应用程序Ajax加载。

  使用方式

  步骤1:设定起始网址

  要搜集网站数据,首先,我们须要设置步入搜集的URL。例如,如果要搜集网站的国外新闻,则应将起始URL设置为国外新闻栏列表的URL,但是一般不会将网站的主页设置为起始地址,因为主页一般包含许多列表,例如最新文章,热门文章和推荐文章Chapter和其他列表块,这些列表块中显示的内容也十分有限。一般来说,收集这种列表时难以搜集完整的信息。

  接下来,我们以新浪新闻集为例最新采集器,从新浪首页查找国外新闻。但是,此列首页上的内容依然太混乱,并且分为三个子列

  

  让我们看一看“内地新闻”的子栏目报导

  

  此列页面包含带有分页的内容列表。通过切换分页,我们可以搜集此列下的所有文章,因此此列表页面特别适宜我们搜集起始URL。

  现在,我们将在任务编辑框的步骤1上将列表URL复制到文本框中。

  

  如果您要在一个任务中同时搜集国外新闻的其他子列,您还可以复制其他两个子列的列表地址,因为这些子列的格式相像。但是,为了易于导入或发布分类数据,通常不建议将多个列的内容混和在一起。

  对于起始URL,我们还可以从txt文件中批量添加或导出。例如,如果我们要搜集前五个页面,我们还可以通过这些方法自定义五个起始页面

  

  应当注意,如果在此处自定义多个分页列表,则在后续的搜集配置上将不会启用分页。通常,当我们要搜集列下的所有文章时,我们仅须要将列的第一页定义为起始URL。如果在后续的搜集配置中启用了分页,则可以搜集每位分页列表的数据。

  步骤2:①自动生成列表和数组

  进入第二步后,对于个别网页,惰性搜集器将智能剖析页面列表,并手动突出显示页面列表并生成列表数据,例如

  

  然后我们可以修剪数据,例如删掉一些不必要的数组

  

  单击图中的三角形符号以弹出该数组的详尽采集配置。 点击上方的删掉按键以删掉该数组。 其余参数将在以下各章中分别介绍。

  如果个别网页手动生成的列表数据不是我们想要的数据,则可以单击“清除数组”以消除所有生成的数组。

  

  如果我们的列表不是自动选择的,那么它将手动列举。 如果要取消突出显示的列表框,可以单击“查找列表-列出XPath”,清除其中的XPath,然后确认。

  ②手动生成列表

  单击“搜索列表”按钮,然后选择“手动选择列表”

  

  按提示,然后用键盘左键单击网页列表中的第一行数据

  单击第一行,然后按提示单击第二行或其他类似的行

  

  单击列表中的任意两行后,整个列表将突出显示。 同时,列表中的数组也将生成。 如果生成的数组不正确,请单击“清除数组”以消除下边的所有数组。 下一章将介绍怎么自动选择数组。

  

  ③手动生成主键

  点击“添加数组”按钮

  

  在列表的任何行中单击要提取的元素,例如标题和链接地址,然后用键盘左键单击标题

  

  当您单击Web链接时,系统将提示您是否获取链接地址

  

  如果要提取链接的标题和地址,请单击“是”。 如果您只想提取标题文本最新采集器,请单击“否”。在这里,我们单击“是”。

  

  系统将手动生成标题和链接地址数组,并在数组列表中显示提取的数组内容。 单击顶部表格中数组的标题时,匹配的内容将在网页上以红色背景突出显示。

  如果标签列表中还有其他数组,请单击“添加数组”,然后重复上述操作。

  ④分页设置

  当列表具有分页时,启用分页后可以搜集所有分页列表数据。

  页面分页有两种

  常规分页:有一个分页栏,并显示“下一页”按钮。单击后,可以步入下一页,例如之前在新浪新闻列表中的分页

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线