自动采集工具(优采云采集器采集时怎样避免重复到重复数据?方法很简单)

优采云 发布时间: 2021-11-16 01:04

  自动采集工具(优采云采集器采集时怎样避免重复到重复数据?方法很简单)

  优采云采集器是一个数据采集工具,用户可以使用这个软件来采集需要的数据。从软件名称就可以看出它的操作非常简单,没错,新手也可以使用,欢迎有需要的朋友下载使用。

  

  软件特点

  零门槛

  如果你不懂网络爬虫技术,如果你能上网,你就能采集网站数据

  多引擎,高速稳定

  内置高速浏览器引擎,还可以切换到HTTP引擎模式运行,采集数据更高效。它还内置了 JSON 引擎,无需分析 JSON 数据结构,直观选择 JSON 内容。

  适用于各种网站

  能够采集99%的互联网网站,包括单页应用Ajax加载和其他动态类型网站。

  

  软件优势

  可视化向导

  所有采集元素,自动生成采集数据

  计划任务

  运行时间灵活定义,全自动运行

  多引擎支持

  支持多个采集引擎,内置高速浏览器内核、HTTP引擎和JSON引擎

  智能识别

  可以自动识别网页列表、采集字段和分页等。

  拦截请求

  自定义屏蔽域名,方便过滤异地广告,提升采集速度

  各种数据导出

  可导出为 Txt、Excel、MySQL、SQLServer、SQlite、Access、网站 等。

  常见问题

  采集时如何避免数据重复?

  运行采集任务时,如果任务前有采集数据,如果采集之前没有清除原有数据,会以append的形式添加新的采集将数据添加到本地采集库中,这样一些已经采集的数据可能会再次采集进入库中,如果目标网页本身也有重复数据,也有可能造成数据重复,那么如何避免采集的数据重复呢?

  方法很简单,我们希望哪些字段内容不允许重复,只需点击字段标题上的三角形符号,然后勾选“过滤重复项”复选框,然后单击“确定”即可。

  

  如何手动生成字段?

  单击“添加字段”按钮

  在列表的任意一行点击要提取的元素,比如要提取标题和链接地址,鼠标左键点击标题

  

  点击网页链接时,使用时会提示是否抓取链接地址

  如果要同时提取链接标题和链接地址,点击“是”,如果只需要提取标题文字,点击“否”,这里我们点击“是”

  系统会自动生成标题和链接地址字段,并在字段列表中显示提取的字段内容。当您单击表格底部的字段标题时,匹配的内容将在网页上以*敏*感*词*背景突出显示。

  如果要标记列表中的其他字段,请单击添加新字段并重复上述操作。

  如何手动生成列表?

  单击“查找列表”按钮并选择“手动选择列表”

  

  按照提示,鼠标左键点击网页列表中的第一行数据

  点击第一行后,根据提示点击第二行或其他类似的行

  

  单击列表中的任意两行后,将突出显示整个列表,并且还会生成列表中的字段。如果生成的字段不正确,请单击清除字段以清除下面的所有字段

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线