如何按照文本内容手动生成关键词或标签?

优采云 发布时间: 2020-08-12 06:38

  纵观目前业界流行的关键词抽取方式,基本的逻辑逃脱不了二种:

  1. 基于统计的tf * idf

  2. 基于pagerank的textrank算法

  但是完全依赖于上述算法,会有一些问题:

  1. 新词问题: 如一些网路新词(怒怼、种草、多闪、4AM)由于早期切词错误,会导致本身切块,从而难以召回结果,此时,采用PMI,左右熵来辅助做一个新词发觉,进而补充词库极其重要

  2. 实体问题:一些实体词,天然就应当被当作关键词抽取下来(如描述姚明的文章,那么姚明是一个人名,这个人名是一个PER,是一个实体),采用ontonotes 或者是CTB等公开数据集,顺便再加点当前自有的语料训练一个序列标明的模型就变得很重要了

  3. 相关性问题:因为抽取得到的关键词,需要和当前的文本足够相关,如果轻率采用TF*IDF或则TextRank,其实难以解决好多的相关性的case(传统搜索引擎的相关性算法采用TFIDF来做,而不融入一些别的算法,会导致一些case搞不定),举个反例(美的,这个term即是一个实体,又是一个形容词,TF*IDF值也比较高,对于一个不是描述空调或则家用电器的文章,抽取得到美的这个是不make sense的),因此,我们须要有一个相关性模型(融合好多的特点来对抽取的词和当前文章做相关性估算并排序,筛选top K 作为关键词)

  至于上述所说的通过 “范式” 来推演得到 “数据库”,这个就弄成了另一个层面的东西了,想要做的好,需要有如下几个步骤:

  1. 有一个分类体系,就是见到当前这篇文章,可以把当前文章可以分为 哪一类 ,科技类/数据库,但是本身这些概念性的东西比较多,也比较泛

  2. 人工建立一套标签体系,采用类似于embedding的思路,只要出现范式就把其归到数据库一类,因为embedding中,范式和数据库足够逾,另外也须要用一些知识图谱中的数据,辅助减少一些badcase

  3. 另外,用一些topic model的形式,来做向下聚合也会有一定的疗效

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线