伪原创相似度查询( 【源码目录详解】词库Key的词组及词组(二))
优采云 发布时间: 2021-09-17 00:13伪原创相似度查询(
【源码目录详解】词库Key的词组及词组(二))
详细源目录
language-ai
|- src/main
| |- java java源码所在目录
| |- com.chenxin
| |- auth 百度AI授权认证模块
| |- base 基础公共抽象模块
| |- config 项目所有自定义配置模块
| |- controller 这个不用多说
| |- exception 全局异常与自定义一次模块
| |- model 项目所有使用的数据模型, dto,vo,bo等
| |- service 业务模块
| |- util 工具模块
| |- auth 授权认证模块
| |- consts 常量类
| |- http http相关
| |- nlp NLP同义词库加载工具
| |- system 系统相关
| |- CommonEnum.java 统一信息处理枚举类
|
| |- AiApplication.java 主启动类
|
|- src/test/java
|- com.chenxin 相关测试代码, 经验证, 若idea版本太低将会导致该单元测试无法使用
其他自行查看源码, 不一一概述
论叙词表的扩充
如果你想要更精确的计算和替换,你需要一个非常精确和庞大的同义词表,你可以自己慢慢补充和完成
只需将叙词表添加到文件resource/res/word.txt中,按格式添加,然后调用初始化redis接口即可。p>
初始化redis接口/AI/command/initredis
论叙词表中的词语重复
没有必要为此担心。作者在这方面做了很多优化。具有相同键值的所有短语将以键0和键1的形式存储在redis中
在查询过程中,将发现并消除所有具有相同关键字的短语,然后执行其他操作来计算相同关键字的词义相似度等,以提高查询效率
查询效率:默认选择同一关键字的前20组
技术图集
该项目集成了几个NLP优秀项目,并将它们一起使用。分词利用百度人工智能自然语言处理技术中的词义分析技术来提高词义相似度
使用hanlp项目计算同义词距离
自然语言处理技术(百度AI提供技术支持)自然语言处理(hanlp提供技术支持)
Hanlp是一个NLP工具包,由一系列模型和算法组成。其目标是推广自然语言处理在生产环境中的应用
叙词表技术架构后端前端
这个项目的页面只是一个测试,稍后将在网站构建一个完整的产品@
关于作者的问题与优化
热衷于人工智能、分布式微服务、web应用、大数据等领域。工作室:1024代码工作室。如果你需要它,你可以联系作者。通信也是可能的
电邮:
其他
我们使用多个NLP项目的原因是,我们最初希望使用百度AI来完成整个项目。但因为百度自然语言处理API
对于普通用户来说,呼叫数量是有限制的,并且超过数量会收取费用,因此大量数据的处理将由hanlp项目处理。减少数据量
将分词交给百度AI处理