dedecms57自动采集更新伪原创完美版插件(拓展词库想要更加精确的计算与替换就需要这20组!)
优采云 发布时间: 2021-11-14 04:01dedecms57自动采集更新伪原创完美版插件(拓展词库想要更加精确的计算与替换就需要这20组!)
展开词库
如果你想要更准确的计算和替换,你需要一个非常准确和庞大的词库,这个词库可以自己慢慢添加
只需将词典添加到文件resource/res/word.txt中,按照格式添加,然后调用初始化redis接口即可。
初始化redis接口/ai/command/initRedis
论词典中单词的重复
这个不用担心,作者在这方面做了很多优化。键值Key相同的词组会全部存储在redis中,以Key0、Key1、
查询时,会找出所有具有相同key的词组,进行去重,然后进行其他操作,计算词义的相似度等等。同样的Key,为了提高
查询效率,默认选择前20组key相同的!
技术图集
本项目整合了多个优秀的NLP项目,共同使用。分词采用百度AI自然语言处理技术的词义分析技术,词义相似度
使用HanLP项目计算同义词的距离!
自然语言处理技术(百度AI提供技术支持) 自然语言处理(hanLP提供技术支持)
HanLP 是由一系列模型和算法组成的 NLP 工具包。目标是普及自然语言处理在生产环境中的应用。
同义词词库技术架构后端前端
本项目的页面只是作为测试使用,以后会构建一个完整的产品网站。
关于作者的问题和优化
热衷于人工智能、分布式微服务、Web应用、大数据等领域。工作室:1024代码工作室,有需要可以联系作者,也可以交流。
邮件:
其他
为什么要使用多个 NLP 项目?原因是我本来想用百度AI来完成整个项目。但由于百度自然语言处理API
对于普通用户,有通话次数限制,需要超额收费。因此,数据量比较大的处理将由HanLP项目来处理。减少数据量
百度的分词将由百度AI处理。