免费采集器(优采云采集器英文名www.ucaiyun.com使用教程,采集器在下文教程)

优采云 发布时间: 2021-11-30 16:09

  免费采集器(优采云采集器英文名www.ucaiyun.com使用教程,采集器在下文教程)

  优采云采集器英文名称,是一款专业的互联网数据采集、处理、分析、挖掘软件。具有网站采集和内容采集、数据处理、数据发布、日志管理等功能,支持多数据库,可无级多页采集,全自动运行,分布式高速采集,多重识别系统,采集监控系统可以非常有帮助网站管理和优化人员分析和优化网站。目前已被电商运营商、企业人员、网站站长等各行业人士所使用。有需要的用户,快来下载优采云采集器免费版。

  

  采集器教程1、新建组--新建任务

  

  2、添加URL + 编辑获取URL的规则

  

  选择ul中li中的链接,注意排除重复地址,可以点击采集下方的测试网址获取。

  

  可以看到有一个从采集到文章的链接。

  

  3、采集内容规则

  我需要采集显示下图中的数据(catid是列id,可以把采集中的数据放到对应的列中,设置一个固定值即可)

  

  重点关注内容和图片采集,标题和描述与内容采集一致

  

  内容采集:

  打开采集的一个文章页面查看源码(可以右键查看f11或者在URL前面添加view-source:):选择<开头的一个位置@文章 并截图 一个段落是否是ctrl+f搜索下的唯一段落,如果是,可以放在下图1的位置,结尾和开头一样。不想截取带有数据可以处理的链接图片的内容,添加--html标签排除-选择确定-确定

  

  还有需要下载页面图片,勾选并填写以下选项

  

  图片采集:

  (1)选择范围与内容相同(文章中的图片)

  (2)数据处理选择提取第一张图片,内容为:

  (3)只要aa.jpg,正则过滤,得到内容:aa.jpg

  (4) 数据库存放有前缀,添加,upload/xxxxx/

  

  找个页面测试一下,可以看到对应的项目都获取到了。

  

  4、 发布内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看刚刚定义的模块:

  

  

  5、我需要把图片保存到本地,还要设置保存文件的路径(ftp以后会尝试使用)。

  

  6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。

  

  功能介绍一、网址采集

  1、您可以通过URL 采集规则设置快速采集获取所需的URL信息。您可以手动输入、批量添加或直接从文本中导入网址,并可以自动过滤掉重复的网址信息。

  2、支持多级页面URL采集,多级URL采集可以通过页面分析自动获取地址和手动填写规则两种方式。为了应对多级分页中内容不同但地址相同的页面URL采集,软件设置了三种HTTP请求方式:GET、POST和ASPXPOST。

  3、支持网站采集测试,可以验证操作的正确性,避免操作中的错误导致采集的结果不准确。

  二、内容采集

  1、通过分析网页源代码,可以设置内容采集规则,准确采集到网页分散的内容数据,支持复杂页面中的内容,如多级多页采集。

  2、通过定义标签,可以对数据进行分类采集,比如将文章内容的标题与正文采集分开。软件配备了三种内容提取方式:截取前后、常规提取、文本提取。选择性强,用户可以根据自己的需要进行选择。

  3、Content采集也支持测试功能,可以选择一个典型的页面来测试采集内容的正确性,以便及时更正,进行下一步的数据处理。

  三、数据处理

  对于采集接收到的信息数据,软件可以对其进行一系列的智能处理,使采集接收到的数据更加符合我们的使用标准。主要包括1)标签过滤:过滤掉内容中不需要的空格、链接等标签;2)替换:支持近义、同义词替换;3) 数据转换:支持中文转英文、简体转繁体、转拼音等;4) 自动摘要、自动分词:支持自动生成摘要和自动分词;5)下载选项:支持任意格式的文件检测下载,相对地址智能补全为绝对地址。

  四、数据发布

  1、数据采集down后,数据默认保存在本地数据库(sqlite、mysql、sqlserver)。用户可以根据需要选择对数据进行后续操作完成数据发布,支持直接查看数据、在线发布数据并进入数据库,支持用户使用和开发发布接口。

  2、 根据数据库类型,可以用相关软件打开直接查看数据,配置发布模块将数据在线发布到网站,可以设置自动登录网站@ >、获取列列表等;如果在用户自己的数据库中,用户只需要写几条SQL语句,程序就会根据用户的SQL语句导入数据;保存为本地文件时,支持本地SQL或文本文件(word、excel、html、txt)格式。

  五、多任务和多线程操作

  可以选择同时运行多个任务,支持不同的网站或同一站点下不同栏目的内容同时采集,可以有计划地调度任务。单个任务可以使用多个线程同时运行在采集内容和发布内容中,以提高运行效率。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线