优采云采集器 v2017.10.10绿色版本
优采云 发布时间: 2020-08-07 10:16优采云采集器是由优采云 Software启动的便捷,实用且功能强大的免费Web数据采集器. 集成了内容采集和信息发布功能,它支持将采集的数据批量上传到各种CMS(decms,empire CMS,phpcms),BLOG(wp,zlobg,BBS(discuz,phpwind)和其他主流程序),并且内置了小巧方便的在发布界面中,可以扩展到功能强大,免费实用,绿色免费安装的任何程序(php,asp,C#,java等). 有需要的用户请下载并体验!
功能
1. 支持手动单页模式,并指定URL来采集内容.
2. 自动过滤重复的URL,并支持针对目标URL的自定义过滤规则.
3. 支持从列表抓取信息到内容页面.
4. 支持(无限)从内容页面派生的多级页面爬网(多级页面支持分页).
5. 支持图片或任何附件的本地化.
6. 支持多任务和多线程以同时采集不同的目标网页信息.
7. 它支持将采集的内容发布到开源程序. 目前,discuz,decms,wordpress和empire cms是内置的. 8.内置的发布规则编辑器,易于管理自定义字段,可以扩展到任何程序.
9. 支持自定义标头信息,例如COOKIE和UserAgent.
10. 采集内容支持截取前后的网页文本或正则表达式.
11. 支持设置列表页面,内容页面和发布时间间隔.
使用优采云网页采集软件教程
1. 创建一个新任务
弹出[本地任务]-[新任务]-[确认对话框],然后确认! (这一次,新创建的任务将保存到[Local Task]的子目录中,并且支持无限的子目录!)
2. 编辑任务
双击新创建的任务,然后双击左按钮进入任务编辑模式. 此时,左侧和上部的红色框将成功进入编辑任务模式,如下图所示:
3,开始任务
①保存任务后,右键单击任务并选择[添加到启动栏]
②使用鼠标左键直接选择任务后,将其拖到右侧的[开始栏]
4. 删除任务
选择[任务管理]删除任务!
5. 复制任务
选择要[复制]的任务,复制任务,然后[粘贴]到任务树中的任何节点.
更新日志
优采云采集器2017.10.10更新:
1. 新增功能: (单篇文章发布)支持在Web上批量上传附件;可定制的附件上传界面,并发布到远程服务器; (当有1篇文章要发布数百张图片时,由于网络带宽问题或服务器上传限制等原因,可以使用此功能,先批量上传单个附件)
2. 新增功能: (单篇文章版本)支持上传片段中的大附件,并且片段大小可以自定义. 最小单位暂定为1K
3. 新增功能: (单篇文章发布)支持FTP上传
(对于以上三个项目,请单击[高级]按钮右侧的[高级设置]-[发布内容以自动上传附件]
)
4. 新增: 您可以设置每次要释放的任务数
5. 新增: 您可以设置已发布内容ID的起始值. 仅发布内容ID大于起始值的内容
6. 新增: 可以复制和粘贴单独的集合字段(新建/覆盖)
7. 新增: 每个任务可以手动添加/删除/清除列节点,有关详细信息,请参见[任务]-[发布内容](适用于无发布界面的纯模拟登录网站背景)
8. 新增功能: (内容处理)将UNIX时间戳添加到北京时间,可自定义时间显示格式
9. 新增内容: (内容处理)添加[内容非空结束处理](例如,内容页面模板不同,并且已提取内容,请使用[内容非空结束处理]. 如果未提取内容,您可以使用版本0909中添加的[如果内容为空则再次提取]功能来继续提取内容)
10. 新增: 可以自定义发布连接规则以返回成功标志(新发布字段“ jsuccess”,在内容中填写“发布成功标志”,当网站返回收录“发布成功标志”的内容时,则判断发布成功. )适合在没有发布界面且仅模拟登录网站背景的情况下使用;)
11. 新增: 发布自定义UserAgent(新的发布字段“ juseragent”,填写您的User-Agent)
12. 新增: 图像水印模式,水印位置可以自定义
13. 修复: 多页采集期间内存未释放