免费文章采集工具(优采云采集器免费版采集文章使用教程实例任务介绍及替换功能)
优采云 发布时间: 2022-03-08 21:01免费文章采集工具(优采云采集器免费版采集文章使用教程实例任务介绍及替换功能)
优采云采集器免费版是一款功能强大的网络数据信息挖掘工具,具有批量采集网页、论坛内容等功能,你可以使用采集全部各大主流网站文章系统、论坛系统等,高速下载稳定下载,需要的朋友快来下载吧!
软件功能
支持在最新的win10系统上运行。
支持 SSH(Sftp 文件)上传。
任务运行合并到统一界面,新增“实时数据”视图和“任务详情”统计。
列表页、分页、多页自定义任意Header请求头等功能。
批量修改任务规则详细参数,批量修改Web发布配置。
起始 URL 批量 URL 的地址格式可以添加多个地址参数,并支持自定义列表参数。
标签数据的来源比较详细,可以设置提取默认页、分页、多页源代码、URL地址和返回头信息。
标签数据处理增加了统计标签字符串长度和批量替换的功能。
优采云采集器免费版功能
1、扩展性强,应用广泛
自定义web发布,自定义主流数据库的保存和发布,自定义本地php和.net对外编程接口处理数据,让数据为你所用。
2、稳定高效
七年磨一剑,软件不断更新完善,采集速度快,性能稳定,资源消耗少。
3、通用
不管新闻、论坛、视频、黄页、图片、下载网站,只要是可以通过浏览器看到的结构化内容,通过指定匹配规则,就可以采集得到你想要的内容需要 。
优采云采集器采集文章教程示例
任务:
采集指定页面的文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57),数据库字段分别是(标题、拇指、描述、内容)。
页面第一张图片作为文章缩略图,这里获取缩略图名称并将对应的网站路径添加到数据库缩略图字段中,另一张下载到本地并上传到指定文件统一文件夹,(当然软件可以直接ftp,不过还没做,后面会加)
1、新组--新任务
2、添加 URL + 编辑获取 URL 的规则
选择ul中li中的链接,注意排除重复地址,可以点击下方测试URL采集获取。
您可以看到 文章 链接到 采集。
3、采集内容规则
我需要采集来显示下图中的数据(catid是列id,可以把采集中的数据放到对应列中,设置一个固定值即可)
关注内容和图片的采集,标题和描述同内容采集
内容采集:
打开一个采集的文章页面,查看源码(如果禁用了右键f11或者在URL前面加了view-source:可以查看):
选择文章开头的一个位置,在ctrl+f下截取一个section,搜索是否是唯一的section。如果是的话,可以放在下图1所示的位置,结尾和开头一样。
我不想截取内容,不想在里面有链接图片进行数据处理,添加--html标签排除--选择确定--确定
还有一个需要下载页面图片,勾选并填写以下选项
图片 采集:
(1)选中范围与内容一致(文章中的图片)
(2)从数据处理选项中提取的第一张图片的内容为:
(3)只要aa.jpg,常规过滤,获取内容:aa.jpg
(4)数据库存储有前缀,添加,上传/xxxxx/
找个页面测试一下,可以看到获取到了对应的item。
4、发布内容设置,这里以模式3发布到数据库为例,编辑好后返回查看新定义的模块:
5、我需要将图片保存到本地,并且需要设置保存文件的路径(ftp稍后会尝试使用)。
6、保存,查看新创建的任务,右键启动任务,这里可以看到已经下载了文字和图片,在数据库中也可以看到。
变更日志
优采云采集器V10.第二版
1.新增:User-Agent 支持从文本中读取和随机切换。教程: 。
2.新增:自动电话号码识别功能支持以14、15、16、17、19开头的新号码段。
3.优化:文件下载后,插件界面优化。
4.优化:检测文件下载时文件正式下载,提升下载速度。