多线程、高性能采集器爬虫.net版源码,可采ajax页面

优采云 发布时间: 2021-08-11 21:03

  多线程、高性能采集器爬虫.net版源码,可采ajax页面

  多线程、高性能采集器版源码,可用于ajax页面

  1、数据采集Basic functions1)支持多任务、多线程数据采集,并支持一个采集task、多个多线程、高性能采集器攀虫。 net版源码,可用 使用ajax页面实例运行,即将采集task规则与采集task操作分离,方便采集tasks的配置和跟踪管理; 2)支持GET和POST请求方式,支持cookies,可以满足严重身份采集的需求,cookie可以提前存储或实时获取; 3)支持用户自定义HTTP Header,通过该功能用户可以完全模拟浏览器请求操作,可以满足所有网页请求需求。此功能在网络上发布数据时特别有用; 4)采集 URL 支持数字、字母、日期、自定义词典、*敏*感*词*和自定义常规规则; 2、数据采集高级功能1)支持采集延时操作,可以控制系统采集频率,减少对目标网站的访问压力; 2)breakpoint 恢复挖矿模式,实时数据存储保护 user采集投注意:此模式仅限于非大数据量的采集; 3)支持大数据量采集,即实时采集实时存储,不会对系统性能产生任何影响; 4)提供强大的数据处理操作,可配置多条规则同时处理采集到的数据: a) 支持字符串截取、替换、追加等操作; b) 支持采集数据输出控制,输出收录指定条件,删除指定条件; c) 支持正则表达式替换; b) 支持U码转汉字; 5)可以自动输出采集到的页面地址和采集时间,提供采集日志; 6)采集的数据可以自动保存为文本文件、excel文件,也可以自动存入数据库。数据库支持Access、MSSqlServer、MySql,还可以在数据存储过程中自动去除重复行,避免数据重复; 7)可以自动发布到网站,通过配置publish网站参数可以在线发布数据(发布配置同采集配置,cookies,HTTP headers等可以定义); 8)数据采集支持触发浏览器操作; 9)提供采集规则分析器,协助用户配置采集规则,分析错误内容; 10)提供迷你浏览器,可以自动抓取网站cookie; 11)support采集日志,并提供容错处理; 3、trigger 触发器是一种自动化的操作方式,即当满足一定条件时,系统会自动执行一个操作,用户可以使用触发器来实现采集tasks 程序的持续执行,调用外部程序、存储过程的调用等

  1)触发器支持两种触发方式:采集数据完成触发器和释放数据完成触发器; 2)触发器操作支持:执行网络矿工采集任务,执行外部程序,执行存储过程; 4、Task 执行计划计时计划是自动化采集 数据的一种手段。用户可根据需要自动控制数据采集的时间和频率; 1)可以按周、日和自定义时间采集Task自动执行,并且可以控制采集task计划的过期时间; 2)可以自动执行任务:网络矿工采集任务、外部执行程序和存储过程; 5、网络天气网络雷达是一个非常重要的好用功能,网络雷达主要是根据用户预定的规则实现对互联网数据的监控,并根据预定的规则提供预警。此功能可用于监控热门在线帖子、感兴趣的关键词、商品价格变化,并在数据上实现采集。 1)monitoring source 目前只支持网络矿工

  立即下载

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线