内容采集器(优采云采集器的网页数据采集工具分析及使用方法介绍)
优采云 发布时间: 2022-02-03 20:17内容采集器(优采云采集器的网页数据采集工具分析及使用方法介绍)
优采云采集器是一个非常简单的网页数据工具采集,它有一个可视化的工作界面,用户可以通过鼠标完成网页数据采集,程序使用门槛很低,任何用户都可以轻松使用它写数据采集,不需要用户具备编写爬虫程序的能力;通过该软件,用户可以在大部分网站采集数据中使用,其中用户需要的数据信息可以从一些单页应用中Ajax加载的动态网站中获取;软件内置高速浏览器引擎,用户可以在各种浏览模式之间自由切换,让用户可以轻松直观的方式在网站网页上执行采集;该程序安全、无毒、易于使用,
软件功能
1、可视化向导:自动为所有集合元素生成集合数据。
2、定时任务:灵活定义运行时间,自动运行。
3、多引擎支持:支持多种采集引擎,内置高速浏览器内核、HTTP引擎、JSON引擎。
4、智能识别:可自动识别网页列表、采集字段、页面等。
5、拦截请求:自定义要拦截的域名,方便过滤站外广告,提高采集速度。
6、各种数据导出:可以导出到TXT、Excel、mysql、SQL Server、SQLite、access、网站等。
软件功能
零阈值
即使您不了解网络爬虫技术,也可以轻松浏览互联网网站 并采集网站 数据。软件操作简单,点击鼠标即可轻松选择要抓取的内容。
多引擎,高速,稳定
内置高速浏览器引擎,还可以切换到HTTP引擎模式,更高效地采集数据。它还具有内置的 JSON 引擎,无需解析 JSON 数据结构并直观地选择 JSON 内容。
高级智能算法
先进的智能算法可以生成目标元素XPath,自动识别网页列表,自动识别分页中的下一页按钮。它不需要分析web请求和源代码,但支持更多的网页集合。
适用于各种 网站
它可以采集 99% 的 Internet 站点,包括单页应用程序 Ajax 加载等动态类型。
指示
第 1 步:设置起始 URL
要采集 网站 数据,首先,我们需要设置进入集合的 URL。例如,如果你想为网站采集国内新闻,你应该将起始URL设置为国内新闻栏目列表的URL,但通常你不会将网站的首页设置为起始地址,因为首页通常收录Latest文章、Popular文章、Recommended文章Chapter等很多列表块,显示的内容也很有限. 一般来说,采集这些列表时不可能采集到完整的信息。
接下来,我们以新浪新闻采集为例,从新浪首页查找国内新闻。不过这个栏目首页的内容还是比较杂乱的,分成了三个子栏目
我们来看看《大陆新闻》的分栏报道
此栏目页面收录一个带有分页的内容列表。通过切换分页,我们可以采集该列下的所有文章,因此这个列表页面非常适合我们采集起始URL。
我们现在将列表 URL 复制到任务编辑框步骤 1 中的文本框中。
如果你想在一个任务中同时采集国内新闻的其他子栏目,你也可以复制另外两个子栏目的列表地址,因为这些子栏目有类似的格式。但是,为了便于导出或发布分类数据,通常不建议将多个列的内容混合在一起。
对于起始 URL,我们还可以批量添加或从 txt 文件导入。比如我们要采集前五个页面,我们也可以这样自定义五个起始页面
需要注意的是,如果这里自定义了多个分页列表,后续的集合配置中将不会启用分页。通常,当我们要采集一个列下的所有文章时,我们只需要将该列的第一页定义为起始URL。如果在后续采集配置中启用了分页,则可以为每个分页列表采集数据。
第二步:①自动生成列表和字段
进入第二步后,对于一些网页,惰性采集器会智能分析页面列表,自动高亮页面列表并生成列表数据,如
然后我们可以修剪数据,例如删除一些不必要的字段
单击图中的三角形符号以显示该字段的详细 采集 配置。单击上面的删除按钮以删除该字段。其余参数将在后续章节中单独介绍。
如果某些网页自动生成的列表数据不是我们想要的,可以点击“清除字段”,清除所有生成的字段。
如果我们的列表不是手动选择的,那么它将自动列出。如果要取消高亮的列表框,可以点击Find List - List XPaths,清除其中的XPaths,然后确认。
②手动生成列表
单击搜索列表按钮并选择手动选择列表
按照提示,然后左键点击网页列表中的第一行数据
单击第一行,然后在出现提示时单击第二行或其他类似行
单击列表中的任意两行后,将突出显示整个列表。同时,列表中的字段也会生成。如果生成的字段不正确,请单击清除字段以清除下面的所有字段。下一章介绍如何手动选择字段。
③ 手动生成字段
单击“添加字段”按钮
在列表的任意一行单击要提取的元素,例如标题和链接地址,然后用鼠标左键单击标题
点击网页链接时,会提示是否获取链接地址
如果要提取链接的标题和地址,请单击是。如果您只想提取标题文本,请单击否。在这里我们点击“是”。
系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击底部表格中某个字段的标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。
如果标签列表中还有其他字段,请单击“添加字段”,然后重复。
④分页设置
当列表有分页时,启用分页时可以采集所有分页列表数据。
页面分页有两种类型
常规分页:有分页栏,显示“下一页”按钮。点击后可以跳转到下一页,比如新浪新闻列表中的上一页