采集内容插入词库(内容APP如何通过给文章分类以及打标签?17年-18年底)

优采云 发布时间: 2021-12-27 08:12

  采集内容插入词库(内容APP如何通过给文章分类以及打标签?17年-18年底)

  笔者结合自己的项目经验,分析了内容类app是如何对文章进行分类标注的?

  

  2017-18年底,参与了一个信息内容兴趣偏好标签项目。什么是内容兴趣偏好标签?

  简单来说,就是分析用户喜欢阅读的文章类型,获取用户的兴趣爱好。在此基础上,对用户进行个性化的内容推荐和推送,有效提升应用活跃度,延长用户生命周期。

  简单来说,这件事情其实就是一个两步的过程:

  

  那么在实践中真的那么简单吗?这两个看似简单的链接是如何实现的?

  首先说一下文章的分类

  因为这个项目,笔者看了很多竞品app的文章分类,发现基本相同,只是在细节上有些不同。更多的问题是新闻文章的分类难以穷尽,我们参考市场上现有的分类,结合一些数据,开发了一套内容兴趣偏好系统。在指定分类时,我们遵循MECE原则,基本实现相互独立和完全穷举。

  接下来,我们要对文章进行分类,我们使用分类算法的监督学习。理想情况下,该过程如下所示:

  

  然而,在实践中存在两个问题。因为选择了监督学习,所以需要为标注样本提供依据。一般来说,有以下三种获取样本的方式:

  得到样本后,就是算法模型的训练和测试。算法模型的训练原理是对样本文章进行分割,提取实体,建立特征工程,将每个特征词作为向量拟合一个函数。这样,当有新文章时,文章会通过分词,并通过模型计算结果。但是,模型不能与样本一次性准确,需要对模型进行测试和修正。一般测试程序如下:

  

  通过测试的模型不是一劳永逸的。后期可能还存在一些分类不准确的问题,可能是样本或者算法模型造成的。这就需要我们找出这些异常的文章和它们的分类,对分类进行修正,然后作为训练样本再次馈送到模型中进行模型修正。一方面,我们可以手动检查转化率较低的分类文章,以确定问题是否出在算法上。另外,这里由于每篇文章的标签都被赋值了,我们可以为这些值设置一个阈值。当最高值低于某个阈值时,这些文章及其标签会被人工召回和标注并进行更正,并放入这里的样本库中。

  文章标签的计算,因为文章可能有多个标签,不是某个二类或另一类的结果。因此,我们使用相似度算法和模型来计算文章的标签并赋值。值越高表示越接近这种类型的标签,就会进行相应的标注。

  

  至此,文章的标注部分已经完成。

  如何标记用户

  对用户进行标记其实有两种方式,统计标记和算法标记。

  前者可以在算法资源不足、运算需求大的情况下进行,后者可以在前者的基础上通过拆分一部分流量来验证和调整算法模型,不断优化。

  但是,在使用第一种方法时,我们发现用户在一段时间内阅读的文章类型并不稳定。大多数用户都会有一个或几个主要的兴趣偏好,这些类型阅读的文章数量会更多。,但与此同时,用户或多或少会阅读一些其他类型的文章,甚至有些用户会阅读他们看到的内容。

  基于这种情况,我们需要对用户的兴趣偏好进行排序,即通过对一段时间内每种文章类型的用户阅读文章的数量进行排序,并取用户的前10个标签,清楚地告诉运营用户什么他们喜欢的文章类型,在这些类型中,用户最喜欢的类型的优先级是什么,方便操作学生推送选择。

  因此,用户标签也需要更加灵活,让操作学生可以根据事件发生时间、事件发生次数等权重灵活组合和选择用户组。

  由于目前有很大一部分推送是人工进行的,从选择文章,到选择用户,再到匹配文章和用户,在正式推送之前一般都会进行大量的A/B测试,新闻文章的类型差异很大. 很多,仅一级标签就达到了30+种,二级标签从100个到几百个不等。整个标签很可能有数千个标签。绝对不可能靠操作学生来推。

  因此,当运营资源有限,无法实现自动化时,一般的运营学生会测试标签,选择覆盖用户量大、转化率高的标签。但同时,这种情况也会导致一些兴趣相对较小的用户被排除在推送人群之外。

  针对这种情况,我们将用户排名前10的二级标签及其对应的一级标签作为用户的一级标签和二级标签。这样,用户覆盖的问题就解决了,运营商也可以集中精力推送主标签和人群。

  但与此同时,另一个问题也出现了。选择用户在一段时间内的行为。这个时间段多长比较合适,这样既能充分体现用户的兴趣,又能覆盖更多的人(每天都有流失的用户,所以时间线越长,覆盖的用户数越多,覆盖的用户数越短)时间线,覆盖的用户数量越少)

  我们发现用户的长期兴趣偏好在一定程度上趋于稳定,但短期兴趣偏好反映了用户在短期内关注热点的行为。因此,从这个角度来看,短期或许能更好地满足用户的需求,但短期对用户的覆盖面较小。在这里,覆盖率和转化率之间永远存在着永恒的矛盾。

  我们的方法是根据浏览时间对用户进行细分。给予用户长期兴趣偏好和短期兴趣偏好,并优先考虑短期兴趣偏好,将短期兴趣用户排除在长期兴趣偏好之外,进行不同的推送。对于流失用户,很可能最近3个月没有访问记录(信息定义流失用户时间为3个月)。对于此类用户,我们将用户最后记录的标签作为用户标签,从丢失中恢复。

  此时,所有用户都有自己的标签,运营学生也可以根据用户的活跃时间和阅读频率,将不同的文章推送给不同的用户,实现千人。

  可以说,我们在这个问题上踩了很多坑。

  第二种方法是通过算法直接标记用户。除了时间和阅读频率,算法模型还可以加入更多的特征纬度,比如用户当前阅读文章的时间、阅读文章的时长、评论、点赞等,同时你还可以为热点文章和热点事件降低文章权重。

  结束语

  当我回过头来总结这段经历时,即使你跟着我来理解这段经历,读者可能觉得其实很简单,但是在这次经历中我们真的踩到了无数坑,尤其是我们不仅要采集

数据,还要做标签,同时也引导业务开展和分析问题。那段经历,可以说是痛并快乐着——

  痛苦是因为问题太多,生意每天都在追我。我问为什么今天的转化率很低;幸福是因为我们最终的转化率终于翻了一番,甚至高于行业水平,算是最好的回报了。

  本文首发于@糖糖是老坛酸菜王。每个人都是产品经理。未经作者许可,禁止转载。

  标题图片来自Unsplash,基于CC0协议。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线