汇高网讯主要功能简介 舆情检测
优采云 发布时间: 2020-08-10 18:59定向采集,简而言之就是对指定网站、指定栏目的采集;
全网监控,简而言之就是通过主流搜索门户,把指定关键词的检索结果采集下来进行监控。
WebSpider绿蜘蛛互联网定向采集系统、WebSpider绿蜘蛛互联网全网采集系统等是我们开发的其他系统,可以实现定向采集、全网采集,这里就不展开介绍,详情请参考
中文动词:对输入的文章内容进行动词处理,例如,我爱北京*敏*感*词*,可以分成我/爱/北京/*敏*感*词*四个词。分词底层有词库支撑,词库中包括介词、词频等词条属性值,用户还可以添加自己的用户词库或则外挂专业词库。
词性标明:通过对文章内容动词、统计剖析、语义剖析等估算出动词后结果词的词义。
关键词提取:计算出文章中主要的关键词、词频、重要性等数据指标,并过滤出核心关键词。
人名/地名辨识:识别出在词库中仍未登陆的人名、地名等。
内容指纹:通过对文章内容动词、关键词提取等方式剖析出代表文章内容特点的内容指纹,可以用于内容排重等。
自动摘要:计算出文章中的关键词、核心句子等并产生文章摘要。
内容相似性剖析:基于内容相似性算法,计算文章间的相似度指标并排序,提示人工进行干预处理或则依照设定的阀值手动处理,可以应用于相似性关联标示、相似性去重等功能点中。
自动分类:根据样本训练得出分类的特点向量空间模型,然后按照文章的特点向量实现对文章的手动分类。
自动聚类:把一批文章根据它们在特点向量空间中的距离远近进行分组。
敏感词辨识:根据用户定义的敏感词辞典,识别出文章中的敏感词并标示这种文章,实现对收录敏感词的文章的过滤。敏感词涉及"政治问题"、"负面报导"、"贬义词汇"、"*敏*感*词*迷信"、"民族宗教问题"、"暴力*敏*感*词*"、"台湾问题"等类别。
主题追踪:对给定的文章进行主题剖析,并追踪与该主题相同的其他文章。
正负面辨识:根据积累的正负面语料库、词库,自动辨识出文章的正负面。
全文检索:对分好词的文章建立起索引,帮助使用者在查全查准间取得平衡,使用者输入感兴趣的关键词即可进行精准的查询检索。
数据挖掘:通过数据抽取、数据管理、数据凸显等关键技术,从大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
对于重点风波、重点人物、重点地区、负面新闻等,系统可以通过设置词库、规则、语料训练、特征关键词等多种形式进行重点关注;系统可以通过新闻分类、地区分类、站点分类、正负面分类、人物分类等多种分类方法进行导航浏览。
通过系统可以看见互联网上最新的资讯消息,也可以见到各大网站争相报导、争相转载的热点信息,可以便捷见到当日内、3天内、一周内、一个月内、一个季度内、一年内等时间范围内的最新资讯和热点信息。热点关键词可以以日晷的方式展示。
对于热点信息,可以看见该文章被转载的传播路径图、转载态势图等。