智能采集发布器(智能网络资源系统不是什么?能帮我做什么事情?)
优采云 发布时间: 2021-11-18 03:21智能采集发布器(智能网络资源系统不是什么?能帮我做什么事情?)
汇聚网络资源采集,转换、导出、释放、请求、监控。通过强大灵活的采集项目,在本地挖掘数据后,可以导出到各种数据库(MSSQL、Oracle、MySQL、Firebird、PostgreSQL、SQLite、ACCESS、XML、CSV),也可以发布到Major 网站、cms、论坛,还可以批量转换几十种文件格式,修改属性和修复媒体文件,制作电子书,还可以监控指定的网站和更改数据可以通过多种方式(MSN/ICQ/QQ/Jabber/email/网络接口请求/信使服务/Web服务/各种数据库/文件/系统日志/第三方接口等)自动通知,并且可以自定义发送网络请求(如自动投票等)。
特征:
1. 强大的功能:整合网络资源采集,转换、导出、发布、请求、监控;
2. 高度灵活:所有功能模块都可以使用插件系统进行扩展,也可以使用内置脚本系统进行自定义扩展;
3.完全绿色:无需注册表,无需捆绑软件/插件,无需安装;
4.语言支持:内置对英语的支持,可以根据语言包格式本地化各种语言。
什么是智能网络资源系统?
1)。不是离线浏览器。当然,你也可以使用它在本地下载指定的网站资源,但这不是它的主要功能;
2)。不是搜索引擎。当然,你可以使用内置的蜘蛛功能,将一些网站页面采集带到本地;
什么是智能网络资源系统?你能为我做什么?
1).采集网站数据:通过多年来对互联网海量数据的分析和提炼,我们总结出了一套通用的互联网资源模型。基于这个模型,我们设计了这个系统,通过这个系统,你可以准确的采集网站的指定资源;
2)。转换数据:采集返回的资源有多种格式。您可以使用内置的对一百多个文件的支持来转换为指定的文件格式;
3)。导出到各种数据库:MSSQL、Oracle、MySQL、Firebird、PostgreSQL、SQLite、ACCESS、XML、CSV 等;
4)。发布到专业网站、论坛、cms;
5)。消息通知:各种任务完成后,或监控指定的网站,当数据发生变化时,可自动通过多种方式(MSN、ICQ、QQ、Jabber、email、网络接口)请求、信使服务、Web服务、各种数据库、文件、系统日志、第三方接口等)通知;
6)。网络请求:发送自定义网络请求(如自动投票等);
□采集:您可以使用采集来挖掘互联网上的各种资源。
一种)。采集 项目:采集 详细的工作设置文件,包括到采集 的资源链接;
1).采集 模式:
一世。准确:根据指定资源格式(字段)的定义,执行数据库字段级别的采集;
ii. Spider/Crawler:根据指定的文件匹配表达式,自动对指定的网站资源和采集进行综合分析;
b)。字段:各种资源的最小单位,比如你要采集某个网站多个帖子,那么每个帖子可能收录以下字段:作者、标题、日期、内容等。 ;
C)。链接页面:某些帖子位于多个页面中。在这种情况下,可以为帖子的内容字段设置链接页面属性,自动将多个页面的内容合并到内容字段中;
d)。跟踪:通过单击列表页面中的多个页面来显示某些资源。在这种情况下,您可以自动为内容设置跟踪属性,并自动获取最终内容;
e)。登录验证:部分资源网站需要先登录才能访问内容。在这种情况下,您可以为整个 网站、每个链接甚至每个资源单独定义登录验证。满足特定需求;
1)。参数:这些是模拟登录所需的参数,如用户名、密码等;
2)。登录采集项目:一些网站登录认证比较复杂,经常用到一些动态参数/值。如果使用固定参数,则无法满足登录要求。这时候就可以使用采集工程自动获取登录参数的值了!
3)。登录脚本:如果使用采集项目仍然无法满足一些特殊的网站登录需求,可以使用自定义登录脚本来实现相应的登录认证;
F)。数据处理:
1)。脏字过滤:内置过滤超过11000个符合国家规定的敏感字符。您还可以自定义需要过滤的字符,确保您采集的内容符合相关法律法规;
2)。垃圾邮件过滤:使用贝叶斯概率模型自动分析采集的内容,判断是否为垃圾邮件。可以自己训练各种垃圾邮件;
3)。内容嗅探:对于Flash/Silverlight播放器,页面加载后会从后台获取实际文件(.FLV/MP3/.XAP等)。可以使用内容嗅探实现内容的实际采集;
4)。Keyword/Tag(标签)自动分析:使用全文分词对采集的内容进行分析,自动获取内容的keyword/tag列表;
5)。文件格式批量转换:快速转换大量文件、更改图片或视频大小/添加水印/更改格式、提取压缩文件、将Office系列文档转换为HTML、多种方式修改文件名、修改多媒体文件属性、媒体文件修复与剪切、修改图片文件属性、文本排版、文本混淆、简繁大小写转换、文本分割与合并、网页文本转换、电子书提取与制作、可执行文件提取与生成、坏图片过滤、数据转换等。
一种)。图片:更改图片大小和格式,添加水印,支持jpg、bmp、png、gif、tif、tga、pcx、wmf、emf、psd、mng、ico、icl、cur、ani、ppm、pbm、pgm、svg、 jpeg2000、eip、hif、raw、dicom 等;
b)。多媒体文件:支持wav、wmv、avi、asf、rm、rmvb、mpg、qt、mov、mp3、flv等;
C)。压缩文件:提取/转换/生成压缩文件,支持zip、rar、7z、cab、msi、iso、cbz、cbr、jar、tar、gzip、bzip2、arj、cpio、deb、dmg、hfs、lzh、lzma、 nsis、rpm、udf、wim、xar、xz、z、pak、nsa 等;
d)。办公文档:与UOF/网页转换,支持doc、docx、xls、xlsx、ppt、pptx、uof、msg、eml、mht、chm、hxs、wps、db、xml、box、dps、et、xlb、pdf ,rtf 等;
e)。多媒体文件属性:修改属性,支持wav、wmv、avi、asf、rm、rmvb、mpg、qt、mov、mp3、flc、wma、mpc、ogg、ape;
F)。图片文件属性:修改属性,支持jpg、png;
G)。修改文件名:支持所有文件;
H)。媒体文件修复和剪切:支持rmvb、avi、asf;
一世)。文字排版:智能修正段落、去除杂音、修正段首尾空格、修正标点符号,支持txt、htm、eml;
j)。文本拆分合并:根据大小、行数或段落数对文本内容进行剪切和合并,支持txt、htm、eml;
k)。文本混淆:在文本内容中插入干扰字符,支持txt、htm、eml;
l)。简繁体转换:简繁体、全角和半角转换,支持txt、htm、eml;
米)。网页文字转换:网页转文字或文字转网页,支持txt、htm、eml;
n)。电子书提取与制作:支持UMD、JAR、CHM;
o)。可执行文件提取与生成:提取各种可执行文件,生成可执行文件,支持各种文件;
p)。不良图片过滤:识别并过滤不良图片,支持所有图片;
q)。数据转网页:根据数据生成网页,支持采集项目和各种数据库;
r)。数据转换:使用自定义脚本转换数据和文件,支持采集项目、各种数据库和各种文件;
6)。贴吧:使用UBB内容格式作为发帖工具,快速将其他论坛的帖子内容转成论坛,特别是图片,非常适合浇水和贴图;
7)。媒体文件修复和剪切:修复rmvb文件的错误并剪切内容;
8)。快速下载:
一世。链接:复制各种需要下载的资源(如图片等)的链接或网页内容,自动分析下载到本地磁盘;
ii. 嗅探:复制视频地址或内容,自动解析下载视频,独有的嗅探功能,支持所有视频网站;
□出口:
一种)。数据库:将采集之后的数据导出到各大数据库/数据文件;
b).HTML/可执行文件
□发布:
一种)。采集之后的数据:您可以将采集之后的数据发布到各大网络cms系统或论坛;
b)。网络请求:可以自定义请求,如在线投票等;
□任务调度:可以指定采集、转换、导出、发布、请求等各种任务定期执行。
□消息通知:可通过多种方式自动通知(MSN、ICQ、QQ、Jabber、电子邮件、网络接口请求、信使服务、Web服务、各种数据库、文件、系统日志、第三方接口等)
一种)。各种任务完成后,如采集、发布、定时任务等;
b)。监控指定的网站以及数据何时发生变化;
□监控:您可以定义网络资源何时更新,通过多种通知方式,随时提醒您。
□Script:Script是对各种功能的自定义扩展,可以使用C#/VB.NET/JScript.NET/PHP/VBScript/JavaScript/IronPython/IronRuby等语言编写;
a).采集脚本:在采集项目中,如果遇到一些特殊的资源,当正常的采集方法无法胜任时,可以通过脚本采集@进行自定义>;
b)。发布脚本:发送特殊网站请求;
C)。消息通知:
d)。计划任务:
e)。常用:系统内置了100多个常用脚本,如特殊链的解释/编码、条码的生成、敏感字符的过滤、中文分词/标签识别、数学表达式的计算、RSS解释和生成,新闻通知等;
□扩展和外部工具:
一种)。系统提供以下丰富的程序接口供您进行系统的二次开发:
1)。消息通知:编写多种具体的消息通知方式,满足您的需求;
2)。中文分词/标签识别
3)。数据转换:将各种采集数据转换到您的业务系统;
4)。项目扩展:自定义各种项目(采集、发布、脚本、消息通知、定时任务等)并应用到实际项目操作中;
5)。界面:个性化系统;
b)。外部工具:系统内置识别9大类100多个常用软件,还可以添加各种软件,快速操作;
□任务管理:可以对采集、发布、请求、定时任务、脚本、消息通知等各种任务进行综合管理:添加、停止、跟踪进度、趋势图、性能报告等。
□ 应用服务器:应用服务器以Windows 服务的形式运行在系统的后台。它包括以下模块:
一种)。分布式规划任务管理器:
b)。分布式数据采集和同步:
C)。Web服务管理器:允许您远程使用Web浏览器(如IE/FireFox/Opera/Chrome/Safari等)对系统进行全面管理;