推荐NLPIR大数据语义智能剖析平台
优采云 发布时间: 2020-08-11 09:08
NLPIR大数据语义智能剖析平台由北京理工大学大数据搜索与挖掘实验室( Big Data Search and Mining Lab.BDSM@BIT)张华平博士主导,最近上线了新版,这里做个推荐。张华平博士最广为人知的产品是ICTCLAS英文动词平台,相信这更有助于你们了解NLPIR大数据语义智能剖析平台,以下摘自“NLPIR大数据语义智能剖析平台新版上线”。
NLPIR大数据语义智能剖析平台针对大数据内容采编挖搜的综合需求,融合了网路精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后长达十八年,服务了全球四十万家机构用户,是大数据时代语义智能剖析的一大神器。
NLPIR大数据语义智能挖掘平台,针对大数据内容处理的须要,融合了网路精准采集、自然语言理解、文本挖掘和网路搜索的技术,提供了客户端工具、云服务、二次开发插口。开发平台由多个中间件组成,各个中间件API可以无缝地融合到顾客的各种复杂应用系统之中,可兼容Windows,Linux,Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各种开发语言使用。
NLPIR大数据语义智能剖析平台十三大功能:
1、精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。
2、文档抽取:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息抽取,信息抽取确切,效率达到大数据处理的要求。
3、新词发觉:从文本中挖掘出新词、新概念,用户可以用于专业辞典的编纂,还可以进一步编辑标明,导入动词辞典中,提高动词系统的准确度,并适应新的语言变化。
4、批量动词:对原创语料进行动词,自动辨识人名地名机构名等未登入词,新词标明以及动词标明。并可在剖析过程中,导入用户定义的辞典。
5、语言统计:针对切分标明结果,系统可以手动地进行一元词频统计、二元成语转移机率统计。针对常用的术语,会手动给出相应的中文解释。
6、文本降维:能够从*敏*感*词*数据中手动剖析出热点风波,并提供风波话题的关键特点描述。同时适用于长文本和邮件、微博等短文本的热点剖析。
7、文本分类:根据规则或训练的方式对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等众多方面。
8、摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。
9、智能过滤:对文本内容的语义智能过滤审查,内置国外最全词库,智能辨识多种变种:形变、音变、繁简等多种变型,语义精准排岐。
10、情感剖析:针对事先指定的剖析对象,系统手动剖析海量文档的情感倾向:情感极性及情感值检测,并在原文中给出正负面的得分和语句样例。
11、文档去重:快速准确地判定文件集合或数据库中是否存在相同或相像内容的记录,同时找出所有的重复记录。
12、全文检索:支持文本、数字、日期、字符串等各类数据类型,多数组的高效搜索,支持AND/OR/NOT以及NEAR毗邻等查询句型,支持俄语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。
13、编码转换:自动辨识内容的编码,并把编码统一转换为其他编码。
欢迎你们下载使用。
NLPIR大数据语义智能剖析平台蓝皮书:
(约3MB)
NLPIR大数据语义智能剖析平台:
(约160MB)
Related posts:推荐张华平老师的中文分词工具ICTCLAS2010 Python自然语言处理实践: 在NLTK中使用哈佛英文分词器 Python自然语言处理工具NLTK学习导引及相关资料 中文动词入门之字标明法全文文档