网页采集器的自动识别算法(多线程、高性能采集器爬虫.net版源码,可采ajax页面)
优采云 发布时间: 2021-12-19 15:03网页采集器的自动识别算法(多线程、高性能采集器爬虫.net版源码,可采ajax页面)
多线程、高性能采集器 版源码,ajax页面可用
<p>1、数据采集基本功能1)支持多任务、多线程数据采集,支持一个采集任务、多多线程、高性能采集器版源码,可以使用ajax页面实例运行,即采集任务规则和采集任务操作会分离,方便采集 任务配置和跟踪管理;2)支持GET、POST请求方式,支持cookie,可以满足严肃数据的需要采集,cookie可以提前存储,也可以实时获取;3)支持用户自定义的HTTP Header,通过这个功能用户可以完全模拟浏览器请求操作,可以满足所有的网页请求需求。这个功能在数据网发布时特别有用;< @4)采集 URL 支持数字、字母、日期、自定义字典、外部数据等参数,最大限度的简化采集网站的配置,从而达到批处理采集;5)采集网站支持导航操作(即从入口页面自动跳转到需要采集数据的页面),导航规则支持复杂规则,导航级别不限,并可进行多层网址导航;6)支持采集自动URL翻译页面和导航层自动翻页。定义翻页规则后,系统会自动为数据采集翻页。同时,该功能也可以用于用户页面文章的自动合并操作;7)网络矿工支持级联采集,即在导航的基础上,可以将不同层次的数据自动采集下并自动合并。这个函数也可以叫分页采集;8)网络矿工支持翻页数据合并,可以合并多页数据,典型应用是同一篇文章文章多页展示,系统翻页采集并合并成一条数据输出;9)data采集支持文件下载操作,可以下载文件、图片、flash等内容;10)可以进行ajax技术形成网页数据采集;11)采集 规则支持特殊符号的定义,如:十六进制 0x01 非法字符;12)采集规则支持限定符操作,可以精确匹配需要获取的数据;13)采集 URL支持:UTF-8、GB2312、Base64、Big5等编码,并能自动识别等符号;网页编码支持:UTF-8、GB2312、Big5等编码;1