免规则采集器列表算法(网络数据采集器(2.1)是一款*敏*感*词*.支持ajax)
优采云 发布时间: 2021-10-17 11:11免规则采集器列表算法(网络数据采集器(2.1)是一款*敏*感*词*.支持ajax)
网络数据采集器2.1是*敏*感*词*的,可以自定义规则规则采集器。
支持ajax无刷新采集,实现无刷新分页的模拟点击。
实现对js生成内容的抓取,采集QQ业务群的业务信息
1.强大的信息采集功能。采集几乎任何类型的网站信息,包括静态htm、html类型和动态ASP、ASPX、JSP等。N级页面可以与采集关联并自动集成到一个完整记录。支持网页框架、链接和网页加密等。支持完全采集和增量采集(持续挖掘)。可以自动下载二进制文件,如图片、软件、mp3等。可以采集本地磁盘信息。支持Post数据请求采集方法。
2.网站登录。需要登录才能看到的信息,先在任务的“登录设置”中登录,然后就可以采集登录查看信息。
3. 速度快,运行稳定。真正的多线程、多任务,运行时占用系统资源极少,可以长时间稳定运行。(明显不同于其他软件)
4. 丰富的数据存储格式。采集的数据可以保存为Txt、Excel和多种数据库格式(Access sqlserver等)。
5.支持脚本。可以设置脚本类型任务,类似于javascript:submit('Page',1)等格式都可以轻松采集。
6.强大的新闻采集,自动处理功能。新闻格式,包括图片,可自动保留(可通过设置自动去除广告)。可以通过设置自动下载图片,并自动将文中图片的网络路径更改为本地文件路径(也可以保持原样);可以自动将采集的消息处理成自己设计的模板格式;您可以采集 分页新闻。通过这些功能,无需人工干预,只需简单设置即可在本地建立强大的新闻系统。
7.强大的自动信息再处理功能。采集的信息可以分两批重新处理,使其更符合您的实际需求。也可以设置自动处理公式。在采集的过程中,根据公式自动处理公式,包括数据合并和数据替换。
8.提供了从采集,到自动处理,到数据导出(发布)的一站式自动化功能。通过任务调度、实时监控和发布来实现。指定某些任务自动运行,在采集的数据自动移除后将数据导入数据库(可以指定唯一项的组合)。它可以循环运行。您可以指定要在某个时间点运行的任务。可以设置采集,达到一定数据量后,会自动存入库,内存会自动清空。该功能可以在不占用系统资源的情况下,连续采集十万级和百万级数据。无人值守采集。
9.支持采集的AJAX内容页面,实现独立线程操作。