自动采集子系统(乐思网络舆情监测系统的网络拓扑*敏*感*词*所示与分析)
优采云 发布时间: 2021-12-18 13:22自动采集子系统(乐思网络舆情监测系统的网络拓扑*敏*感*词*所示与分析)
系统组成
乐思网络舆情监测系统由两个子系统组成:自动采集子系统(采集层)和分析浏览子系统(分析层和呈现层)。
乐思网络舆情监测系统的网络拓扑如下图所示,也可以根据需要在隔离的外网和内网中实现。
自动采集子系统功能说明
自动采集子系统可以自动采集任何目标网站。
例如:新华网、强国论坛、天涯社区、西瓷社区、网易社区、新浪论坛、搜狐社区、凤凰网、*敏*感*词*,以及用户指定的其他动态网站。您可以提取所有新闻文章或主题帖或最新主题帖的内容,也可以提取某个主题帖的所有回复或最新回复的内容。要么指定目标网站进行监控,要么不指定目标网站进行全局监控网站,或者两者混合监控。可监控国内网站和海外网站,如Facebook、Twitter、BBC、CNN。
自动采集 子系统还可以监控基于应用程序的*敏*感*词*程序。
后端数据库支持任何主流关系型数据库,如Oracle、IBM DB2、MS SQL Server、MySQL、Sybase和文件数据库Access。
自动采集子系统的综合监控功能如下图所示:
自动采集子系统具有以下显着特点:
1. 全球领先的全自动采集功能
Lesisoft的网络信息采集技术是世界领先的,支持任何网页采集中任何数据的准确性。Lesisoft每天为*敏*感*词*用户提供各种采集服务。没有一个高效稳定的采集平台是做不到的。
2. 支持各种监控对象
微博、新闻、论坛、博客、公共*敏*感*词*、搜索引擎、留言板、应用、报刊电子版等实时监控。
3. 无需配置直接*敏*感*词*上千条新闻网站
系统内置网站全球监控配置,只需输入关键词,采集就会自动文章标题和文字。
4. 强大的多语言统一处理功能 26 禁止 9 盗用 0
可自动处理保存中文、英文、法文、德文、日文、韩文、维吾尔文、阿拉伯文等多种语言。
5. 智能文章 提取
对于文章类型的网页,无需配置即可直接提取文章正文和标题、作者发布日期,自动去除广告、栏目、版权等无关垃圾内容。
6. 完美支持各种网页情况
支持当前流行的Web2.0 AJAX动态网站
支持用户名密码自动登录
支持表单查询