文章采集器免费版(优采云采集器电脑版——新一代浏览器智能采集全新上线! )

优采云 发布时间: 2021-10-14 13:35

  文章采集器免费版(优采云采集器电脑版——新一代浏览器智能采集全新上线!

)

  优采云采集器电脑版——新一代浏览器智能采集全新上线!这是一款简单易用、功能强大的网页采集工具,专为优采云采集工具准备!它的采集配置非常简单,整个过程可以通过内置的浏览器可视化选择需要采集的内容,这样你就可以快速创建一个采集任务短时间内无需分析网页源代码,更不用说需要熟悉网络协议,只需点击几下鼠标即可完成创建任务。优采云采集器,制作数据采集从未如此简单,赶快下载体验吧!

  

  软件特点1、软件操作简单,鼠标点击即可轻松选择要采集的内容;

  2、支持三种高速引擎:浏览器引擎、HTTP引擎、JSON引擎,内置优化的火狐浏览器,加上独创的内存优化,浏览器采集也能高速运行,甚至可以快速转换HTTP 操作,享受更高的采集 速度!抓取JSON数据时,也可以使用浏览器可视化的方式,通过鼠标选择需要抓取的内容。无需分析JSON数据结构,让非网页专业设计人员轻松抓取所需数据;

  3、无需分析网页请求和源码,但支持更多网页采集;

  4、 先进的智能算法,可以一键生成目标元素XPATH,自动识别网页列表,自动识别分页中的下一页按钮...

  5、 支持丰富的数据导出方式,可以导出为txt文件、html文件、csv文件、excel文件,也可以导出到现有数据库,如sqlite数据库、access数据库、sqlserver数据库、mysql等数据库。该向导只需映射字段,并可以轻松导出到目标 网站 数据库。软件优势1、可视化向导

  所有采集元素,自动生成采集数据

  2、预定任务

  运行时间灵活定义,全自动运行

  3、多引擎支持

  支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎

  4、智能识别

  可以自动识别网页列表、采集字段和分页等。

  5、拦截请求

  自定义屏蔽域名,方便过滤异地广告,提升采集速度

  6、多数据导出

  可导出为Txt、Excel、MySQL、SQLServer、SQlite、Access、网站等优采云采集器使用方法1、采集如何避免数据重复?

  运行采集任务时,如果任务前有采集数据,如果采集之前没有清除原有数据,会以append的形式添加新的采集将数据添加到本地采集库中,这样一些已经采集的数据可能会再次采集进库,如果目标页面本身也是重复数据,也有可能造成数据重复,那么如何避免采集的数据重复呢?

  方法很简单,我们想要哪个字段内容不允许重复,直接点击字段头部的三角符号,然后勾选“过滤重复项”复选框,点击确定即可。

  

  2、如何手动生成字段?

  单击“添加字段”按钮

  

  在列表的任意一行点击要提取的元素,比如要提取标题和链接地址,鼠标左键点击标题

  

  点击网页链接时,使用时会提示是否抓取链接地址

  

  如果要同时提取链接标题和链接地址,点击“是”,如果只需要提取标题文字,点击“否”,这里我们点击“是”

  

  系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。

  如果要标记列表中的其他字段,请单击添加新字段并重复上述操作。

  3、如何手动生成列表?

  单击“查找列表”按钮并选择“手动选择列表”

  

  

  按照提示,鼠标左键点击网页列表中的第一行数据

  点击第一行后,根据提示点击第二行或其他类似的行

  

  单击列表中的任意两行后,将突出显示整个列表,并且也会生成列表中的字段。如果生成的字段不正确,请单击清除字段以清除下面的所有字段。然后本章介绍手动选择字段。

  

  4、如何采集多级网页?

  如果我们要采集二级页面,比如内容页面,或者采集更深的一级页面、三级、四级等,在当前页面字段列表中,有必须是提取链接地址字段,即提取属性为Href的字段,如图

  

  点击字段的标题栏,选中该栏后会出现“深度链接页面采集”按钮

  

  单击此按钮后,将自动创建一个配置选项卡,并自动打开之前选择的字段的 URL。

  

  采集模式也自动显示为“单人模式”

  

  列表模式:用于从网页列表中提取数据,预览中可以看到多条数据

  单项输入方式:适用于采集内容详情页中的各种信息,如文章标题、时间、正文等。

  因为我们潜入的页面采集是内容页面,全部使用默认的“单入模式”

  然后,我们新建一个字段来提取网页中的文章发布时间,因为文章标题已经在一级列表采集中提取出来了,这里不再重复这里,采集运行时,多页的字段会自动合并成一张表数据。

  

  继续新建字段提取文本

  

  为了保持原文的段落格式,这里的value属性可以是InnerHtml,即从该字段中提取的数据收录Html标签

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线