无规则采集器列表算法(环讯网络数据采集器(Ajax版)2.1网络)

优采云 发布时间: 2021-12-07 15:08

  无规则采集器列表算法(环讯网络数据采集器(Ajax版)2.1网络)

  欢讯网络数据采集器(Ajax版)2.1

  环讯网络数据采集器2.1是一个*敏*感*词*,可以自定义规则规则采集器。

  支持ajax无刷新采集,实现无刷新分页的模拟点击。

  实现对js生成的内容、采集QQ业务群的业务信息的抓取

  1.强大的信息采集功能。采集几乎任何类型的网站信息,包括静态htm、html类型和动态ASP、ASPX、JSP等。N级页面可以与采集关联并自动集成到一个完整记录。支持网页框架、链接和网页加密等。支持完全采集和增量采集(持续挖掘)。可以自动下载二进制文件,如图片、软件、mp3等。可用采集本地磁盘信息。支持Post数据请求采集方法。

  2.网站登录。需要登录才能看到的信息,先在任务的“登录设置”中登录,然后就可以采集登录查看信息。

  3. 速度快,运行稳定。真正的多线程、多任务,运行时占用系统资源极少,可以长时间稳定运行。(明显不同于其他软件)

  4. 丰富的数据存储格式。采集的数据可以保存为Txt、Excel和多种数据库格式(Access sqlserver等)。

  5.支持脚本。可以设置脚本类型的任务,类似于javascript:submit('Page',1)等格式都可以轻松采集。

  6.强大的新闻采集,自动处理功能。新闻的格式,包括图片,可以自动保留(可以通过设置自动去除广告)。可以通过设置自动下载图片,自动将文中图片的网络路径更改为本地文件路径(也可以保持原样);可以自动将采集的消息处理成自己设计的模板格式;您可以采集 分页新闻。有了这些功能,无需人工干预,只需简单的设置就可以在本地建立一个强大的新闻系统。

  7.强大的自动信息再处理功能。采集的信息可以分两批重新处理,使其更符合您的实际需求。还可以设置自动处理公式。在采集的过程中,根据公式自动处理,包括数据合并、数据替换等。

  8.提供了从采集,到自动处理,到数据导出(发布)的一站式自动化功能。通过任务调度、实时监控和发布实现。指定某些任务自动运行,自动去除重复后将采集的数据导入数据库(可指定唯一组合)。它可以循环运行。您可以指定在某个时间点运行的任务。可以设置采集,达到一定数据量后,会自动存入库,内存会自动清空。该功能可以连续采集10万级、百万级数据,不占用系统资源。无人值守采集。

  9.支持采集的AJAX内容页面,实现独立线程操作。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线