关键词自动采集生成内容系统-无需任何打理(关键词抽取方法,基本的逻辑(一)|抽取)
优采云 发布时间: 2021-11-08 18:01关键词自动采集生成内容系统-无需任何打理(关键词抽取方法,基本的逻辑(一)|抽取)
纵观目前业界流行的关键词提取方式,有两个基本逻辑:
1. 基于统计的 tf * idf
2. 基于pagerank的Textrank算法
但是根据上面的算法,会有一些问题:
1. 生词问题:比如一些网络生词(愤怒、草、多闪、凌晨4点)会因为初始切词错误而自行撕碎,导致结果无法回忆。此时,使用PMI。熵对于帮助发现新词和补充同义词库非常重要
2. 实体问题:有些实体词自然应该提取为关键词(比如文章描述姚明,那么姚明就是一个人的名字,这个人的名字是一个PER,一个实体),使用公有数据集,例如ontonotes或CTB,顺便说一下,添加一些当前自己的语料来训练序列标注模型是非常重要的
3. 相关性问题:由于提取的关键词需要与当前文本有足够的相关性,如果贸然使用TF*IDF或TextRank,实际上并不能解决很多相关性情况(传统搜索引擎的相关性算法)是TFIDF做的,没有加入其他一些算法,会导致有些情况无法解决),例如(漂亮,这个词是一个实体和一个形容词,TF*IDF值比较高。对于一个< @文章 那个不描述空调或家电的,提取漂亮的没意义)。因此,我们需要有一个相关模型(将提取的词与当前的文章进行相关性计算和排序,过滤top K为关键词的多个特征的组合)
至于上述通过“范式”对“数据库”的推论,这就变成了另外一个层次的东西。如果你想做得好,你需要以下步骤:
1. 有一个分类系统,就是你看到当前的文章文章,可以把当前的文章归入哪个类别,技术/数据库,不过是概念上的东西本身 越来越普遍
2. 手动构建一套标注系统,采用类似embedding的思路,只要有范式就归为数据库,因为在embedding中,范式与数据库足够接近,而还需要一些知识图谱。数据有助于减少一些坏情况
3. 另外,使用一些主题模型做向上聚合也会有一定的效果