免规则采集器列表算法(优采云采集器官方版软件功能可视化所有采集元素,自动生成采集 )
优采云 发布时间: 2021-10-26 04:30免规则采集器列表算法(优采云采集器官方版软件功能可视化所有采集元素,自动生成采集
)
软件介绍
优采云采集器正式版是一款非常实用的网络小工具,软件界面干净,操作简单,功能强大,配置可视化,轻松创建,无需编程,智能生成,数据采集@ > 等功能。用户可以通过优采云采集器轻松采集@>访问自己需要的网页上的所有信息,使用起来非常方便。
优采云采集器正式版软件特点
1、软件操作简单,鼠标点击即可轻松选择要抓取的内容;
2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上独创的内存优化,浏览器采集@>也可以高速运行,甚至可以快速转换HTTP 操作,享受更高的采集@> 速度!抓取JSON数据时,也可以使用浏览器可视化的方式,用鼠标点击要抓取的内容。无需分析JSON数据结构,让非网页专业设计人员轻松抓取所需数据;
3、无需分析网页请求和源码,但支持更多网页采集@>;
4、 先进的智能算法,可以一键生成目标元素XPATH,自动识别网页列表,自动识别分页中的下一页按钮...
5、 支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到现有数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql等数据库。该向导只需映射字段,并可以轻松导出到目标 网站 数据库。.
优采云采集器正式版软件特点
可视化向导
所有采集@>元素,自动生成采集@>数据
计划任务
运行时间灵活定义,全自动运行
多引擎支持
支持多个采集@>引擎,内置高速浏览器内核、HTTP引擎和JSON引擎
智能识别
可以自动识别网页列表、采集@>字段和分页等。
拦截请求
自定义屏蔽域名,方便过滤异地广告,提升采集@>速度
各种数据导出
可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等。
优采云采集器正式版软件优势
1、优采云采集器为用户提供丰富的网络数据采集@>功能
2、如果需要复制网页的数据,可以使用本软件采集@>
3、网页大部分内容可以直接复制,一键使用采集@>通过优采云采集器
4、直接输入网址采集@>,准确采集@>任何网页内容
5、支持规则设置,自定义采集@>规则,添加采集@>字段内容,添加采集@>网页元素
6、批量采集@>数据,一键输入多个网址采集@>
7、软件中显示任务列表,点击直接开始运行采集@>
8、支持数据查看,可以在软件中查看采集@>的数据内容,可以导出数据
9、支持字符和词库替换功能,文本一键编辑到采集@>
优采云采集器官方版教程
第 1 步:设置起始 URL
要采集@>一个网站数据,首先我们需要设置输入采集@>的URL。比如我们要采集@>一个网站国内新闻,那么我们就要设置起始网址为国内新闻栏目列表的网址,一般不设置网站首页作为起始网址,因为首页通常收录很多列表,比如最新的文章、热门文章、推荐文章等各种列表块,以及这些列表块中显示的内容也非常有限。一般情况下,采集@>这些列表不可能是采集@>完整的信息。
我们以采集@>新浪新闻为例,从新浪首页查找国内新闻。不过这个版块首页的内容还是乱七八糟的,还细分了三个子版块。
来看看其中一个子栏目“大陆新闻”
此列页面收录带分页的内容列表。通过切换分页,我们可以采集@>去到这个栏目下的所有文章,所以这种列表页非常适合我们采集@>的起始网址。
现在,我们将列表 URL 复制到任务编辑框的第一步中的文本框
如果你想在一个任务中同时采集@>国内新闻中的其他子栏,也可以复制到另外两个子栏列表的地址中,因为这些子栏列表格式都差不多. 但是,为了方便分类数据的导出或发布,一般不建议将多栏内容混在一起。
对于起始地址,我们也可以批量添加或者从txt文件中导入。比如我们要采集@>前5页,我们也可以像这样自定义5个起始页
需要注意的是,如果这里自定义了多个分页列表,下面的采集@>配置中不要开启分页。通常我们希望将某个列下的所有文章都采集@>,此时只需要定义该列的第一页为起始URL即可。在下面的采集@>配置中启用分页后,您可以采集@>到每个分页列表的数据。
第二步:①自动生成列表和字段
进入第二步后,对于部分网页,优采云采集器会智能分析网页列表,自动高亮网页列表并生成列表数据,如
然后我们修剪数据,比如删除一些不需要的字段
点击图标中的三角符号,会弹出采集@>字段的详细配置。单击上方的删除按钮可删除该字段。其余参数将在后面的章节中单独介绍。
如果某些网页自动生成的列表数据不是我们想要的数据,可以点击“清除字段”来清除所有生成的字段。
如果自动分析的高亮列表不是我们想要的列表采集@>,那么我们手动选择列表。如果要取消突出显示的列表框,可以单击 Find List-List XPATH,清除其中的 xpath 并确认。
第二步:②手动生成列表
单击“查找列表”按钮并选择“手动选择列表”
按照提示,鼠标左键点击网页列表中的第一行数据
点击第一行后,根据提示点击第二行或其他类似的行
单击列表中的任意两行后,将突出显示整个列表,并且也会生成列表中的字段。如果生成的字段不正确,点击清除字段清除下面所有的字段,下一章介绍手动选择字段。
第二步:③手动生成字段
单击“添加字段”按钮
在列表的任意一行点击要提取的元素,比如要提取标题和链接地址,鼠标左键点击标题
点击网页链接时,使用时会提示是否抓取链接地址
如果要同时提取链接标题和链接地址,点击“是”,如果只需要提取标题文字,点击“否”,这里我们点击“是”
系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。
如果要标记列表中的其他字段,请单击添加新字段并重复上述操作。
第二步:④分页设置
当列表有分页时,启用分页后,可以采集@>去查看所有的分页列表数据。
页面分页有两种类型
正常分页:有分页栏,显示“下一页”按钮。点击后可以进入下一页,比如新浪新闻列表中的上一页
瀑布式分页:网页滚动条到达底部时自动加载下一页内容
如果是正常分页,我们选择尝试自动设置或手动设置
自动设置分页
创建新任务时默认不启用分页。点击“不启用分页”,会弹出一个菜单,选择“自动识别分页”,如果识别成功,会弹出一个对话框提示“成功识别并设置分页元素!”,一个高亮的红色虚线框网页的“下一步”按钮出现(部分网页按钮可能不显示虚线框),自动分页已成功启用。
如果是自动识别,会出现如下绿色提示框
手动设置分页
在菜单中选择“手动设置分页”
然后会自动出现“Find Pagination”按钮,点击它弹出一个菜单,选择“Mark Pagination”