优采云采集器免费版本V9.10
优采云 发布时间: 2020-08-08 14:35www.ucaiyun.com的英文名称是www.ucaiyun.com. 它是一个专业的Internet数据捕获,处理,分析和挖掘软件. 它具有网站采集,内容采集,数据处理,数据发布,日志管理等功能. 它支持多个数据库,能够无限制地进行多页采集,全自动运行,分布式高速采集,多标识系统采集监控系统,可以很好地帮助网站管理和优化人员分析和优化网站. 现在,它已被各行各业的人们所使用,例如电子商务运营商,公司人员和网站所有者. 有需要的用户可以下载免费版本的优采云采集器,下面的编辑器还为所有人提供了一个简单的教程!
采集器教程1.新的新任务
2. 添加URL +编辑获取URL的规则
在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL来获取它.
您可以看到其中收录所采集文章的链接.
3. 馆藏内容规则
我需要采集下图所示的数据(catid是列ID,您可以将采集的数据放入相应的列中并设置一个固定值)
关注内容和图片的采集,标题和描述与内容采集相同
内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11或在URL前面添加view-source: 来查看该源代码): 在文章开头选择一个位置,然后截取一个查看段落是否唯一一个段落,如果存在,可以将其放置在图1所示的位置,并且结尾与开头相同. 我不想使用可以由数据处理的链接图片来拦截内容,请添加--html标记排除-选择确定-确定
还需要下载页面图片,检查并填写以下选项
图片集:
(1)所选范围与内容(文章中的图片)相同
(2)数据处理选项提取第一张图片,内容为:
(3)只要对aa.jpg进行定期过滤,即可得到内容: aa.jpg
(4)数据库带有前缀存储,添加后,上载/ xxxxx /
找到一个页面并进行测试. 您可以看到所有的对应项都已获得.
4. 发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:
5. 我需要在本地保存图片,并且需要设置保存文件的路径(ftp稍后将尝试使用它).
6. 保存,查看新创建的任务,右键单击以启动任务,您可以看到此处已下载文本和图片,并且可以在数据库中看到它们.
功能介绍1. URL采集
1. 您可以通过设置URL采集规则来快速采集所需的URL信息. 您可以手动输入,批量添加或直接从文本导入URL,并且可以自动过滤出重复的URL信息.
2. 它支持采集多级页面URL,可以使用页面分析以两种方式自动获取地址和手动填写规则. 为了应对多级分页中具有不同内容但地址相同的页面的URL的采集,该软件设置了三种HTTP请求方法: GET,POST和ASPXPOST.
3. 它支持网站采集测试,可以验证操作的正确性,避免操作不当而导致采集结果不准确.
第二,内容采集
1. 通过分析网页的源代码,可以设置内容采集规则,以准确采集网页中分散的内容数据,并支持在多级和多页等复杂页面中进行内容采集.
2. 通过定义标签,可以对数据进行分类和采集,例如,可以分别采集文章内容的标题和文章正文. 该软件配备了三种内容提取方法: 拦截前后,常规提取和文本提取. 选择性很强,用户可以根据自己的需要进行选择.
3. 内容集合还支持测试功能. 可以选择一个典型的页面来测试内容采集的正确性,以便及时更正并执行下一个数据处理.
三,数据处理
对于采集的信息数据,该软件可以对其执行一系列智能处理,以使采集的数据更符合我们的使用标准. 主要包括1)标签过滤: 过滤掉内容中不必要的空格,链接和其他标签; 2)替换: 支持同义词和同义词的替换; 3)数据转换: 支持中文到英文,简体到繁体,拼音等转换; 4)自动汇总和自动分词: 支持自动生成汇总和自动分词; 5)下载选项: 支持任何格式的文件检测下载,并且可以智能地将相对地址完整为绝对地址.
四,数据发布
1. 采集数据后,默认情况下,数据将保存在本地数据库(sqlite,mysql,sqlserver)中. 用户可以根据自己的需要选择对数据进行后续操作,以完成数据发布,支持直接查看数据,以及在线将数据发布到数据库中,并支持用户使用和开发发布界面.
2. 根据数据库类型,可以使用相关软件将其打开以直接查看数据,配置发布模块以将数据在线发布到网站,可以设置自动登录网站,获取列列表等;如果将其输入到用户自己的数据库中,则用户只需编写一些SQL语句,程序便会根据用户的SQL语句导入数据;另存为本地文件时,它支持本地SQL或文本文件(word,excel,html,txt)格式.
五,多任务和多线程操作
您可以选择同时运行多个任务,支持同时采集不同的网站或同一站点的不同部分,并以计划的方式安排任务. 采集和发布内容时,一个任务可以使用多个线程来运行,从而提高了操作效率.