限时免费:优采云采集器免费版 V9.10
优采云 发布时间: 2020-09-05 03:10优采云 采集器免费版V 9. 10
优采云 采集器英文名称www.ucaiyun.com,它是专业的Internet数据捕获,处理,分析,挖掘软件,它具有网站采集,内容采集,数据处理,数据发布,日志管理和其他功能,并支持多数据库,可以无限多页采集,全自动运行,分布式高速采集,多识别系统,采集监控系统,对网站会非常有帮助管理优化人员分析和优化网站。现在,它已被各行各业的人们所使用,例如电子商务运营商,公司人员,网站网站管理员等。有需要的用户可以下载优采云 采集器免费版本,下面的编辑器还随附了一个针对所有人的简单教程!
采集器教程1、新组-新任务
2、添加URL +编辑获取URL的规则
在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL 采集来获取它。
您会看到采集与文章之间存在链接。
3、 采集内容规则
我需要采集在下图中显示数据(catid是列ID,您可以将采集中的数据放入相应的列中,只需设置一个固定值即可)
关注采集的内容和图片,标题和描述与内容采集相同
内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11进行查看,也可以在URL前面添加view-source :):在[ k5],并在ctrl + f中截取一段,以查看它是否是唯一的段落。如果是这样,则可以将其放在下面的图1中,并且结尾与开头相同。我不想使用可以处理以进行数据处理的链接图像来捕获内容。添加--html标记排除-选择确定-确定
还需要下载页面图片,检查并填写以下选项
图片采集:
([1)所选范围与内容(文章中的图片)相同
([2)数据处理选项提取第一张图片,内容为:
([3)只要aa.jpg,请定期过滤,获取内容:aa.jpg
([4)该数据库存储有前缀,将其添加,上载/ xxxxx /
找到一个页面并进行测试,您可以看到所有对应的项目都已获得。
4、发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:
5、我需要将图片保存在本地,我需要设置保存文件的路径(ftp稍后将尝试使用它)。
6、保存,查看新创建的任务,右键单击以启动该任务,您可以看到此处下载了文本和图片,并且可以在数据库中看到它。
功能介绍一、 URL 采集
1、可以通过URL 采集规则设置快速采集获得所需的URL信息。您可以手动输入,批量添加或直接从文本导入URL,并且可以自动过滤出重复的URL信息。
2、支持多级页面URL的采集。多层URL 采集可以使用页面分析来自动获取地址并手动填写规则。为了应付多级分页中不同的内容,但页面URL 采集的地址相同,该软件设置了三种HTTP请求方法:GET,POST和ASPXPOST。
3、支持网站采集测试,该网站可以验证操作的正确性,并避免操作错误导致采集结果不准确。
二、内容采集
1、可以通过分析网页的源代码来设置内容采集规则,准确地将采集设置为分散的网页内容数据,并支持复杂页面(例如多级和多页采集。
2、可以通过定义标签采集来对数据进行分类,例如将文章内容的标题与文本采集分开。该软件配备了三种内容提取方法:拦截前后,常规提取和文本提取。选择性很强,用户可以根据自己的需要进行选择。
3、内容采集也支持测试功能。您可以选择一个典型的页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。
三、数据处理
对于采集中的信息和数据,该软件可以对其进行一系列智能处理,从而使采集中的数据更符合我们的使用标准。主要包括1)标签过滤:过滤掉内容中不必要的空格,链接和其他标签; 2)替换:支持同义词和同义词的替换; 3)数据转换:支持中文到英文,简体到繁体,以及拼音等转换; 4)自动摘要,自动分词:支持摘要的自动生成和自动分词; 5)下载选项:支持任何格式的文件检测下载,并且可以智能地将相对地址完整为绝对地址。
四、数据发布
1、下载数据采集后,默认情况下,数据将保存在本地数据库(sqlite,mysql,sqlserver)中。用户可以根据需要选择对数据进行后续操作,以完成数据发布,并支持直接查看数据,在线发布数据并进入数据库,并支持用户使用和开发发布界面。
2、根据数据库类型,可以使用相关软件将其打开以直接查看数据,配置发布模块以将数据在线发布到网站,可以设置自动登录网站,获取列列表等;如果在用户自己的数据库中输入用户,则用户只需编写一些SQL语句,程序便会根据用户的SQL语句导入数据;另存为本地文件时,它支持本地SQL或文本文件(word,excel,html,txt)格式。
五、多任务和多线程操作
您可以选择同时运行多个任务,同时支持不同的网站或同一站点采集下不同列的内容,并且可以按计划的方式计划任务。单个任务可以在采集内容和发布内容中都使用多线程操作,以提高操作效率。