网站内容发布审核流程( 几年网信谈内容审核的流程、不同类型的内容以及影响)

优采云 发布时间: 2021-11-03 02:16

  网站内容发布审核流程(

几年网信谈内容审核的流程、不同类型的内容以及影响)

  

  近年来,国家网信办多次报道各种网站平台新闻。部分平台已被要求限期整改,情节严重的将无限期下架。

  

  对于内容产品,内容审核是不可避免的。用户上传的海量内容需要经过严格的审核才能呈现给消费者。对于UGC产品来说,内容风控是底线。只有在底线之上,我们才能讨论内容的质量和产品的质量。

  本文将结合作者的经验,讨论内容审核流程、不同类型的内容,以及对用户体验的影响。

  一、完整的审核流程

  

  1)机器审查

  使用AI技术对用户上传的内容进行一级过滤,或者提供一些有助于审核的信息。

  机器审核的结果分为两种,一种是AI可以准确做出判断,一种是模棱两可,机器无法判断。后者需要流入人工审核,这部分一般不超过总数的5%,前者需要抽查来评估准确性。

  机器识别的优势在于处理效率高,能够在短时间内处理大量内容。缺点是不够灵活。人类可以钻各种规则的漏洞。然而,机器要学会识别它们,通常需要大量的数据和算法来覆盖它们。

  2)人工审核

  机器审核无法确定的内容将进入人工审核。人工审核的优点是灵活性。与一机多用的标准相比,人工审核可以大大减少意外伤害。缺点也很明显,依靠体力劳动,审计效率太低。

  2019年,快手招募了3000名内容审稿人,将现有的审稿团队从2000人扩大到5000人。在国外,凭借Facebook自己的算法,人工审核团队已经达到1.50,000人;在YouTube上谷歌大脑算法的支持下,审核团队的数量也达到了10000+。这说明即使机器审核过滤掉了大部分内容,剩下的5%的内容也是巨大的。人机协同审稿在未来很长一段时间内仍是审稿模式。

  另外,反之完善人工审核的结果,提高机器审核的准确性,形成过程中的闭环。毕竟人工审核的量只有多招人才能达到,但是机器审核的效率很容易提升。

  3)质量采样

  按一定比例对机器审核和人工审核的结果进行抽样。抽检和机检的目的是判断机检的准确性,调整机检的规模。人工审核抽样主要是看是否按照标准执行,是否经过绩效评估。

  4)高风险审查

  在主流程的基础上,对“重点关注对象”再进行一次审核。高危内容包括:高曝光内容、高曝光用户、有历史违规的劣质用户等。 与直播审核类似,平台会在超高流量的*敏*感*词*设置常驻超级管道.

  5)库存返利

  定期通过机器审核查看库存内容。之所以需要定期重新扫描,是因为机器审核的标准随时都在变化,新规则无法覆盖旧内容。同时,库存检索还可以发现一些产品和代码中的漏洞。

  6)用户报告

  用户举报也是各UGC平台必备的风控手段。用户举报不仅可以利用用户的力量发*敏*感*词*山毒霸,因为被举报后没有及时处理,导致此事被放大。

  7) 违规用户将被处罚

  违规用户的处罚是是否被封禁或封禁,以及是否被判处有期徒刑或无期徒刑。这就需要一套完整的惩罚机制,按照一定的梯度规则来惩罚不同类型的违规行为。例如,如果您触碰底线,您将获得一次违规的称号;而对于低俗、辱骂等低风险的违规行为,会先给予警告和取缔,屡次违规、反复指导后给予封号。

  另*敏*感*词*。

  

  二、 审核时间

  根据内容的不同,可以分为:issue before review 和 issue before review

  适用于风险较高但对时效要求不高的内容。比如内容比较大的博客、文章、音视频作品等。

  首刊后审适用于:时效性要求极高或风险极低的内容。比如直播、IM、弹幕。

  除了风险和及时性考虑之外,还可以进行用户分层。例如,具有良好历史行为的优质用户理论上没有风险。您可以考虑先发送它们,然后再查看它们。

  三、内容类型

  1)文字

  文字内容的复习,简单易行,难也难。很容易绕过各种规则,比如相似的字符,相似的声音,拼音,中间的各种字符。一些恶意发布有害内容的用户会尝试各种变体,直到可以将其发送出去。很难从规则中完全禁止它。

  

  直播平台私聊截图

  因此,需要对用户行为进行监控,对点击次数过多的用户进行预警,重点筛选是必要的。

  此外,文本内容的处理方式有多种,如禁止发布、点击审核、替换等,可应用于不同的场景。

  2)图片

  依靠图像识别技术和OCR技术对图像内容和图像中的文字内容进行分析。然而,直到现在,图像识别的准确率还不算太高。比如机器会根据*敏*感*词*区域判断是否为*敏*感*词*内容。这样的识别准确率一定不能太高。

  

  3)音频

  音频识别可以做一些预处理:比如通过音频识别技术标记无声、极低音量或无意义的音频,加上音译+敏感词匹配,为人工审核提供尽可能多的帮助。由于音频审核不同于其他内容,时间成本相对较高。

  4)直播

  由于直播是流媒体内容,所以只能先发后评论。

  现在业界普遍采用多屏滚动监控,即直播墙的形式,确保第一时间发现问题,第一时间处理。

  

  四、 审核后处理意见

  通常有以下几种方式来处理问题的内容:

  删除:存在安全问题且不允许传播或发布的内容。自看:不存在安全问题,但内容不允许传播。用户可以将其发布在个人主页上,并自行享受。降级:没有安全问题,但不符合平台调性,与平台无关。不可分发:没有安全问题和质量问题的内容。音频质量差、视频卡顿和断帧等问题。五、用户体验

  在控制内容风险的同时,肯定会对用户体验产生负面影响。如何减少影响:

  尽量让用户的发布流程完整,体验更好。不必要的时候不要打扰用户。例如,应谨慎使用禁止发布的设计。更好的选择是让用户发布,然后在后续审核过程中下架或执行其他操作。白名单机制:保证核心用户体验不受影响,甚至更好。例如,优先审核白名单用户发布的内容,或先发布后审核。提高审核时效,让用户对审核时间有预期。审稿时效的提升取决于审稿技术和审稿流程的提升,对审稿时间的期望可以从产品设计入手,缓解用户等待审稿的焦虑。

  以上三点都是为了优化发布者的体验。对于消费者来说,重点大概应该放在推荐系统上,比如:

  如何隐式和显式聚合用户兴趣,推荐用户喜欢的内容,从用户体验的角度设计举报功能,听取用户意见。激励用户营造内容氛围。六、示例:文字审核

  作者所在的公司已经建立了自己的文本审阅系统。在这里记录一下我的经历:

  1)词库管理

  除了基本的增删改查功能外,还需要注意以下几点:

  敏感词需要细分吗?例如,我们将敏感词分为三个级别:高风险、中风险和低风险。大多数高危敏感词明显与政治有关,禁止在各业务条线发表。中低风险是敏感的。话语流入人体试验。分级的目的是为了减少误杀,保证用户体验,因为高危敏感词实际上只占很小的一部分。是否需要对词库进行细分,通常取决于业务线的数量和差异有多大。笔者最初的需求计划是划分默认词库+业务线专用词库,但后来发现这个没有必要,

  2)匹配规则

  为了尽可能多地捕获非法内容的变种,文本审查应支持多种匹配规则。这里有些例子:

  3)业务接入

  审计服务作为中台定位服务,应方便各业务线的接入。所以尽量把可配置的服务抽象出来,方便各种业务线的灵活接入。

  4)黑白名单

  其实更精准的就是列表管理,列表可以灵活配置,匹配某个词时想要返回什么样的结果。列表可以打开和关闭,使用列表管理特定时期的敏感词非常方便。

  匹配过程中应忽略白名单中的敏感词。比如“中国”是敏感词,“中国好声音”和“*敏*感*词*中国”都没有风险,那么“*敏*感*词*中国,我会帮你”的“骄傲”不应该被打。

  5)在线测试

  提供在线检测功能。首先,更改敏感词后,可以查看是否有效;其次,您可以检查不确定内容是否存在风险。

  

  6)统计

  敏感词拦截量和拦截率:敏感词拦截情况如何,可以看到敏感词设置是否合理,对业务的影响如何。合理的拦截量应该在3%到5%之间。

  具体拦截情况,比如哪些敏感词被拦截最多,这些敏感词的设置是否合理,是否有更好的处理这些敏感词的方法。

  总之,数据可以揭示很多问题,也可以为后续的迭代提供思路。

  本文由@挪威的糊糊原创发布给大家都是产品经理。未经许可禁止转载

  标题图片来自Unsplash,基于CC0协议

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线