Web信息智能采集和自动分类索引系统简介
优采云 发布时间: 2020-08-09 06:38Web信息智能采集和自动分类索引系统是我们惠海科技-武汉大学移动商务联合实验室的第一个联合研发项目. 系统集成已完成,系统已进入系统测试阶段. 让我介绍一下.
概述:
Web信息智能采集和自动分类索引系统是一种智能系统,可以根据用户自定义要求自动从Internet采集和处理信息. 采集的信息类型包括新闻页面,论坛和社区,SNS,BBS,博客和微博等待.
功能列表:
1. Web信息的分布式多通道实时定向采集
2. 提取采集到的网页的正文
3. 相似信息的重复数据删除
4. 自动主题分类(将文章自动分类为预设类别)
5. 自动主题索引(提取5〜6个关键字)
6. 自动提取作者,时间和出版单位
7. 信息检索包括全文检索,按时间范围检索和有限类别检索
8. 自动分类搜索结果
申请方向:
1. 垂直搜索引擎
2. 舆论监督
3. 发布评估信息监控
4. 企业竞争情报和市场情报监视
5. 机构负面信息监控
6. 区域形象评估
7. 用户偏好分析
8. 在线社交网络分析和挖掘
9. 其他信息增值服务
其他概述:
Web信息采集系统是基于Web信息的各种应用程序服务的基础. 对于采集的Web信息,企业可以开发各种特定的内部和外部增值服务. 它是出版社介入信息服务行业的基础和平台. 这种工具非常适合传统出版集团的出版主题选择,网络营销,竞争情报,产品评估,企业形象管理等工作.
我们欢迎出版界的朋友与我们合作进行系统研发,业务咨询和理论讨论,尤其是那些对开发移动出版服务和增值在线信息服务感兴趣的人.
武汉大学-惠海技术移动业务联合实验室副主任王晓光