网站通用信息采集器v10正式版
优采云 发布时间: 2020-08-07 17:37网站通用信息采集器是杭州旺乐科技*敏*感*词*开发的一种网站爬虫和网络爬虫软件,它结合了所有网络爬虫的网络爬虫软件的优点,可以捕获网站上的所有信息并自动发布到您的网站,任何网站上的所有类型的信息都将被捕获,例如: 新闻,供求信息,掌握人才招聘,获取论坛帖子,获取音乐,获取指向下一页的链接等. 只有您无法想到它的. 如果您没有优采云采集器,则可以在看到它时捕获它. 网站通用信息采集器也可以自动工作,而无需手动工作. 您还可以在睡眠时为网站提供最新信息. 该功能非常强大. 有需要的用户请下载并体验!
软件功能
1. 自动信息采集和添加
网站爬网的目的主要是添加到您的网站. 网站信息优采云采集器可以实现自动采集和添加. 其他网站刚刚更新的信息将在五分钟内自动出现在您的网站上. 您认为这很容易吗?
2. 网站登录
对于需要登录才能查看信息内容的网站,优采云采集器可以轻松登录并采集网站信息,即使有验证码,也可以通过登录来采集所需信息.
3. 自动下载文件
如果需要采集图片等二进制文件,则只需设置网站信息优采云采集器,就可以在本地保存任何类型的文件.
4. 多级页面集合,整个网站的一次爬网
无论有多少个类别和子类别,都可以通过一次设置来采集多级页面的内容. 如果一条信息分布在许多不同的页面上,则网站通用信息采集器还可以自动识别N级页面,以实现信息的采集和捕获. 该软件附带一个8层网站采集示例
5. 自动识别特殊网址
许多网页都链接到特殊的网址,例如javascript: openwin('1234'),这些网址通常不是开头. 网站的通用信息采集器还可以自动识别和捕获内容
6. 自动过滤重复数据导出过滤重复数据处理
有时URL不同,但是内容相同. 优采云采集器仍可以根据内容过滤重复项. (新版本中添加了新功能)
7. 多页新闻自动合并,广告过滤
某些新闻中有下一页,该网站的通用信息采集器也可以抓取所有页面. 并且可以同时保存捕获的新闻中的图片和文字,并可以过滤掉广告
8. 自动破解饼干和防沥水
许多下载网站已实施Cookie验证或防盗版. 您无法通过直接输入URL来捕获内容,但是网站的通用信息采集器可以自动破解Cookie验证和防盗版. 哈哈,确保您能抓住它. 你想要什么
9. 还增加了模拟手动提交的功能. 租用的网站asp + access空间也可以远程发布. 实际上,它还可以模拟所有网页提交操作,并可以批量注册成员并模拟组消息传递.
网站通用信息采集器的十个功能:
1. 自动采集和发布
2. 自动破解JavaScript特殊URL
3. 成员登录的网站也被捕获
4. 不论有多少类别,一次爬网整个站点
5. 可以下载任何类型的文件
6. 多页新闻自动合并,广告过滤
7. 多层次页面联合采集
8. 模拟手动点击以破解防盗链
9. 验证码识别
10. 自动在图片上添加水印
更新日志
网站Universal Information Collector 10更新:
1. 全新的分层设置,可以为每个层设置特殊选项,摆脱以前的默认3层限制
2. 一次爬取任何多级分类. 过去,有必要先抓取每个类别的URL,然后捕获每个类别
3. 图片下载,自定义文件名,以前无法重命名
4. 新闻内容页面合并设置更简单,更通用,更强大
5. 模拟的点击更通用,更简单. 先前的模拟点击需要特殊设置,并且使用起来很复杂
6. 可以根据内容判断重复项. 以前,重复是根据URL来判断的
7. 采集完成后,允许执行自定义vbs脚本endget.vbs,并允许在发行后执行endpub.vbs. 在vbs中,您可以自己编写数据处理功能
8. 导出的数据可以实现为包括文本,排除文本,文本截取,日期加月份,数字比较大小过滤以及在字符前后添加字符.