规则采集文章软件(可采集Ajax技术网站,需要通过嗅探器探测其真实地址)
优采云 发布时间: 2021-10-06 18:38规则采集文章软件(可采集Ajax技术网站,需要通过嗅探器探测其真实地址)
1、多任务和多线程,支持运行任务的多个实例采集将规则与运行的实例分离的优点是修改任务信息不会影响运行的任务
2、支持图片、flash和文件下载;下载不支持多线程
3、网站配置支持参数自定义和外部字典参数;用户定义的参数值可以通过字典进行扩展
4、支持cookies和post采集;可以记录Cookie,采集需要登录的网站数据,或者可以手动登录采集
5、支持导航和自动翻页;可以进行网站导航,例如,通过新闻列表采集新闻内容;支持多层导航
6、ajax数据可以是采集;对于Ajax技术网站,需要通过HTTP嗅探器检测其真实地址;建议使用小提琴手
7、采集临时数据存储和断点连续挖掘;临时存储的数据的格式是XML
8、支持数据导出、文件和数据库;数据库支持access、Ms sqlserver和MYSQL,文件支持文本文件和excel;数据导出支持手动和自动。手动导出仅支持文件格式
九,。提供网站编码/解码工具;支持UTF-8、GB2312、GBK和Big5
10、在线数据发布;支持在线数据发布,数据发布支持cookie
11、数据采集支持采集数据处理;可以对采集数据进行字符串替换、截取、附件等操作,自动删除网页符号,支持正则化
12、支持任务计划;任务可以定期执行,最短间隔为:0.5小时
13、支持任务触发;可以触发采集任务、数据库存储过程和可执行文件,支持采集完成和发布完成触发
14、支持采集数据网站的自动输出;它可以用作内容参考和错误搜索
15、支持采集延迟;对于访问受限的网站,采集延迟可用于控制单位时间内网站的采集次数
16、支持分层数据采集;即分页采集和级联采集,它们支持1对1和1对N数据关系
17、支持URL Base64编码。一些网站使用Base64编码URL来支持此类采集数据
18、支持导入外部字典数据,可以批量导入字典数据