关键词自动采集生成内容系统-无需任何打理(关键词抽取方法，基本的逻辑（一）|抽取)

优采云发布时间: 2021-11-08 18:01

　　纵观目前业界流行的关键词提取方式，有两个基本逻辑：

　　1. 基于统计的 tf * idf

　　2. 基于pagerank的Textrank算法

　　但是根据上面的算法，会有一些问题：

　　1. 生词问题：比如一些网络生词（愤怒、草、多闪、凌晨4点）会因为初始切词错误而自行撕碎，导致结果无法回忆。此时，使用PMI。熵对于帮助发现新词和补充同义词库非常重要

　　2. 实体问题：有些实体词自然应该提取为关键词（比如文章描述姚明，那么姚明就是一个人的名字，这个人的名字是一个PER，一个实体），使用公有数据集，例如ontonotes或CTB，顺便说一下，添加一些当前自己的语料来训练序列标注模型是非常重要的

　　3. 相关性问题：由于提取的关键词需要与当前文本有足够的相关性，如果贸然使用TF*IDF或TextRank，实际上并不能解决很多相关性情况（传统搜索引擎的相关性算法）是TFIDF做的，没有加入其他一些算法，会导致有些情况无法解决），例如（漂亮，这个词是一个实体和一个形容词，TF*IDF值比较高。对于一个< @文章那个不描述空调或家电的，提取漂亮的没意义）。因此，我们需要有一个相关模型（将提取的词与当前的文章进行相关性计算和排序，过滤top K为关键词的多个特征的组合）

　　至于上述通过“范式”对“数据库”的推论，这就变成了另外一个层次的东西。如果你想做得好，你需要以下步骤：

　　1. 有一个分类系统，就是你看到当前的文章文章，可以把当前的文章归入哪个类别，技术/数据库，不过是概念上的东西本身越来越普遍

　　2. 手动构建一套标注系统，采用类似embedding的思路，只要有范式就归为数据库，因为在embedding中，范式与数据库足够接近，而还需要一些知识图谱。数据有助于减少一些坏情况

　　3. 另外，使用一些主题模型做向上聚合也会有一定的效果

0

2021-11-08

关键词自动采集生成内容系统_无需任何打理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词自动采集生成内容系统-无需任何打理(关键词抽取方法，基本的逻辑（一）|抽取)

0 个评论

发起人

AI时代内容工厂

关键词自动采集生成内容系统-无需任何打理(关键词抽取方法，基本的逻辑（一）|抽取)

0 个评论

发起人

相关问题