免费网页采集器(优采云采集器将这些数据保存下来,你还不知道? )
优采云 发布时间: 2021-09-02 00:09免费网页采集器(优采云采集器将这些数据保存下来,你还不知道?
)
优采云采集器 是一个非常有用的网络信息工具采集。该软件内置浏览器,可以直观地帮助用户采集各种网页内容。操作简单,无需掌握。任何专业的网络知识都可以轻松创建采集 任务,只需单击鼠标即可。 优采云采集器可以自定义采集你需要的网页上的所有信息,并且可以自动识别网页列表、采集字段和分页等,输入采集网址,点击鼠标轻松选择所需的抓取内容; 优采云采集器视化采集器、采集就像积木一样,功能模块可以随意组合,可视化提取或操作网页元素,自动登录、自动发布、验证码自动识别通用浏览器,您可以快速创建自动化脚本,甚至生成独立的应用程序;用户可以使用优采云采集器到采集网页上的一些数据内容,并且这些数据内容可以单独保存,以便用户在浏览网页时如果需要采集资料,可以保存数据并通过这个采集器 使用它。有兴趣的快来下载体验吧!
功能介绍1、操作简单,鼠标点击即可轻松选择要抓取的内容
2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上原有的内存优化,浏览器采集也可以高速运行,甚至更快转换为 HTTP 运行并享受更高的采集 速度。在抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容。无需分析 JSON 数据结构。让非网页专业设计师轻松抓取自己需要的数据
3、不需要分析网页请求和源码,但支持更多的网页采集
4、高级智能算法,一键生成目标元素XPATH,自动识别网页列表,分页自动识别下一页按钮
5、支持丰富的数据导出方式,可以导出到txt文件、html文件、csv文件、excel文件,也可以导出到现有的数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql数据库,通过简单的通过向导映射字段,可以轻松导出到目标网站database。软件特点1、Visualization Wizard:所有采集元素自动生成采集data
2、定时任务:灵活定义运行时间,全自动运行
3、多引擎支持:支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎
4、Smart Recognition:可以自动识别网页列表、采集字段和分页等
5、拦截请求:自定义拦截域名,方便过滤异地广告,提高采集速度
6、各种数据导出:可以导出到Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等优采云采集器如何使用一、设置起始网址
对于采集一个网站数据,首先我们需要设置输入采集的URL,比如我们想要采集一个网站国内新闻,那么我们需要设置起始网址为国内新闻栏目列表的网址,而网站首页一般不设置为起始网址,因为首页通常收录很多列表,比如最新的文章,热门的文章,推荐文章等列表块,而且这些列表块显示的内容也很有限。 采集这些列表一般是没有的采集全信息
以采集芭新闻为例,从新浪首页找国内新闻,但是这个版块首页的内容还是比较乱,还分了三个子版块
进入其中一个子栏目看大陆新闻
此栏目页收录一个分页的内容列表。通过切换分页,我们可以采集到达这个栏目下的所有文章,所以这种列表页非常适合我们采集开始的起始地址
现在,我们将列表 URL 复制到任务编辑框第一步中的文本框
如果你想同时在一个任务中采集中国新闻,你也可以复制另外两个子栏列表的地址,因为这两个子栏列表的格式是相似的,但是为了方便导出或发布分类数据。一般不建议将多列的内容混在一起
对于起始网址,我们也可以批量添加或者从txt文件中导入。比如我们想要采集前5页,也可以这样自定义5个起始页。
需要注意的是,如果这里自定义了多个分页列表,以后不要在采集配置中启用分页。通常我们希望在某一列下采集所有文章。只需要定义列的第一页为起始URL,后面在采集配置中开启分页,就可以采集到每个分页列表的数据
二、自动生成列表和字段
进入第二步后,对于部分网页,优采云采集器会智能分析页面列表,自动高亮选中的网页列表并生成列表数据,如
然后我们会修剪数据,比如删除一些不需要的字段
点击图标中的三角符号,会弹出字段采集进行详细配置,点击上面的删除按钮删除该字段,其余参数将在后面章节单独介绍
如果某些网页自动生成的列表数据不是我们想要的数据,可以点击清除字段清除所有生成的字段
如果自动分析的高亮列表不是我们想要的采集列表,那么我们手动选择列表。如果要取消高亮的列表框,可以点击查找列表,列出XPATH,将xpath放入其中,清空后确认
三、手动生成列表
点击搜索列表按钮,选择手动选择列表
根据提示,鼠标左键点击网页列表中的第一行数据
点击第一行后,根据提示点击第二行或其他类似行
点击列表中任意两行后,整个列表都会高亮显示,列表中的字段也会生成。如果生成的字段不正确,点击清除字段,清除下面所有字段,手动选择字段将在下一章介绍
四、手动生成字段
点击添加字段按钮
在列表的任意一行点击要提取的元素,比如要提取标题和链接地址,鼠标左键点击标题即可。
点击网页链接时,使用时会提示是否抓取链接地址
如果要同时提取链接标题和链接地址,点击是,如果只需要提取标题文字,点击否,这里我们点击是
系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您点击表格底部的字段标题时,网页上会以*敏*感*词*背景突出显示匹配的内容
如何标记列表中的其他字段,点击新字段,重复以上操作。
五、页面设置
列表有分页时,启用分页后,可以采集访问所有分页列表数据
页面分页有两种类型
普通分页:有分页栏,显示下一页按钮。点击后可以进入下一页,比如新浪新闻列表中的上一页。
瀑布式分页:网页滚动条到达底部时自动加载下一页内容
如果是正常分页,我们选择尝试自动设置或手动设置
1、自动设置分页
默认情况下,创建新任务时不启用分页。点击不启用分页,弹出菜单选择自动识别分页。如果识别成功,会弹出一个对话框,提示已成功识别并设置分页元素,显示下一页。分页按钮上出现高亮的红色虚线框,至此自动分页成功
如果是自动识别,会出现如下绿色提示框
2、手动设置分页
在菜单中选择手动分页
然后找到会自动出现分页按钮,点击弹出菜单,选择标记分页