dedecms57自动采集更新伪原创完美版插件(拓展词库想要更加精确的计算与替换就需要这20组!)

优采云发布时间: 2021-11-14 04:01

　　展开词库

　　如果你想要更准确的计算和替换，你需要一个非常准确和庞大的词库，这个词库可以自己慢慢添加

　　只需将词典添加到文件resource/res/word.txt中，按照格式添加，然后调用初始化redis接口即可。

　　初始化redis接口/ai/command/initRedis

　　论词典中单词的重复

　　这个不用担心，作者在这方面做了很多优化。键值Key相同的词组会全部存储在redis中，以Key0、Key1、

　　查询时，会找出所有具有相同key的词组，进行去重，然后进行其他操作，计算词义的相似度等等。同样的Key，为了提高

　　查询效率，默认选择前20组key相同的！

　　技术图集

　　本项目整合了多个优秀的NLP项目，共同使用。分词采用百度AI自然语言处理技术的词义分析技术，词义相似度

　　使用HanLP项目计算同义词的距离！

　　自然语言处理技术（百度AI提供技术支持）自然语言处理（hanLP提供技术支持）

　　HanLP 是由一系列模型和算法组成的 NLP 工具包。目标是普及自然语言处理在生产环境中的应用。

　　同义词词库技术架构后端前端

　　本项目的页面只是作为测试使用，以后会构建一个完整的产品网站。

　　关于作者的问题和优化

　　热衷于人工智能、分布式微服务、Web应用、大数据等领域。工作室：1024代码工作室，有需要可以联系作者，也可以交流。

　　邮件：

　　其他

　　为什么要使用多个 NLP 项目？原因是我本来想用百度AI来完成整个项目。但由于百度自然语言处理API

　　对于普通用户，有通话次数限制，需要超额收费。因此，数据量比较大的处理将由HanLP项目来处理。减少数据量

　　百度的分词将由百度AI处理。

0

2021-11-14

dedecms57自动采集更新伪原创完美版插件

0 个评论

要回复文章请先登录或注册