优采云采集器的网页数据采集工具分析及使用方法介绍
优采云 发布时间: 2021-08-27 19:14优采云采集器的网页数据采集工具分析及使用方法介绍
优采云采集器是一个非常简单的网页数据采集工具,它具有可视化界面,用户可以用鼠标完成采集网页数据,该程序的使用门槛很低,任何用户可以轻松使用数据采集,无需用户具备编写爬虫的能力;通过该软件,用户可以访问大部分网站采集数据,包括一些单页应用程序Ajax加载的动态网站获取用户需要的数据信息;软件内置高速浏览器引擎,用户可在多种浏览模式间自由切换,让用户以直观的方式轻松网站网站采集;该程序安全无毒,使用方便,欢迎有需要的朋友下载使用。
软件功能
1、Visualization Wizard:自动为所有集合元素生成集合数据。
2、定时任务:灵活定义运行时间,自动运行。
3、多引擎支持:支持多种采集引擎,内置高速浏览器内核、HTTP引擎、JSON引擎。
4、Smart Recognition:可以自动识别网页列表,采集字段、页面等
5、Blocking request:自定义屏蔽域名,方便过滤异地广告,提高采集速度。
6、各种数据导出:可导出为TXT、Excel、mysql、SQL Server、SQLite、access、网站等
软件功能
零门槛
即使您不了解网络爬虫技术,也可以轻松浏览互联网网站并采集网站数据。软件操作简单,点击鼠标即可轻松选择要抓取的内容。
多引擎,高速,稳定
内置高速浏览器引擎,还可以切换到HTTP引擎模式,更高效地采集数据。它还内置了JSON引擎,无需分析JSON数据结构,直观选择JSON内容。
先进的智能算法
先进的智能算法可以生成目标元素XPath,自动识别网页列表,自动识别分页中的下一页按钮。不需要分析Web请求和源代码,但支持更多的网页采集。
适合各种网站
它可以采集 99% 的互联网站点,包括动态类型,例如单页应用 Ajax 加载。
如何使用
第一步:设置起始网址
要采集网站data,首先我们需要设置进入集合的URL。比如你要收网站的国内新闻,就应该把起始网址设置为国内新闻栏目列表的网址,但是通常网站的首页不设置为起始地址,因为主页通常收录许多列表。比如最新的文章、热门文章和推荐的文章Chapter等列表块,这些列表块显示的内容也很有限。一般来说,在采集这些列表时,不可能采集到完整的信息。
接下来,我们以新浪新闻精选为例,从新浪首页查找国内新闻。不过这个栏目第一页的内容还是比较乱,分为三个子栏目
来看看《大陆新闻》的分栏报道
这列页面收录分页内容列表。通过切换分页,我们可以采集到这个栏目下的所有文章,所以这个列表页非常适合我们采集起始网址。
现在,我们将列表 URL 复制到任务编辑框的步骤 1 中的文本框中。
如果你想在一个任务中同时采集国内新闻的其他子栏目,你也可以复制另外两个子栏目的列表地址,因为这两个子栏目格式相似。但是,为了方便分类数据的导出或发布,一般不建议将多列内容混合在一起。
对于起始网址,我们也可以从一个txt文件中批量添加或导入。比如我们要采集前五页,也可以这样自定义起始五页
需要注意的是,如果在这里自定义多个分页列表,后续的集合配置中将不会启用分页。通常,当我们想要采集列下所有文章时,我们只需要将列的第一页定义为起始URL即可。如果在后续的采集配置中开启了分页,则可以为每个分页列表采集数据。
第2步:①自动生成列表和字段
进入第二步后,对于一些网页,懒人采集器会智能分析页面列表,自动高亮页面列表并生成列表数据,例如
然后我们可以修剪数据,比如删除一些不需要的字段
点击图中的三角符号,弹出字段详细的采集配置。单击上方的删除按钮可删除该字段。其余参数将在后续章节中介绍。
如果某些网页自动生成的列表数据不是我们想要的数据,可以点击“清除字段”清除所有生成的字段。
如果我们的列表不是手动选择的,那么它会自动列出。如果要取消突出显示的列表框,可以单击“查找列表-列表XPath”,清除XPath,然后确认。
②手动生成列表
点击“搜索列表”按钮,然后选择“手动选择列表”
根据提示,鼠标左键点击网页列表中的第一行数据
点击第一行,然后根据提示点击第二行或其他类似的行
单击列表中的任意两行后,将突出显示整个列表。同时,列表中的字段也会生成。如果生成的字段不正确,请单击“清除字段”以清除下面的所有字段。下一章将解释如何手动选择字段。
③手动生成字段
点击“添加字段”按钮
在列表的任意一行点击要提取的元素,如标题和链接地址,然后用鼠标左键点击标题
当您点击一个网页链接时,系统会提示您是否获取链接地址
如果要提取链接的标题和地址,请单击“是”。如果您只想提取标题文本,请单击“否”。在这里,我们点击“是”。
系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您点击底部表格中的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。
如果标签列表中还有其他字段,点击“添加字段”,重复上述操作。
④分页设置
当列表有分页时,可以在启用分页后采集所有的分页列表数据。
页面分页有两种类型
常规分页:有一个分页栏,并显示“下一页”按钮。点击后可以跳转到下一页,比如新浪新闻列表中的上一页