网站内容发布审核流程( 几年网信谈内容审核的流程、不同类型的内容以及影响)
优采云 发布时间: 2021-11-03 02:16网站内容发布审核流程(
几年网信谈内容审核的流程、不同类型的内容以及影响)
近年来,国家网信办多次报道各种网站平台新闻。部分平台已被要求限期整改,情节严重的将无限期下架。
对于内容产品,内容审核是不可避免的。用户上传的海量内容需要经过严格的审核才能呈现给消费者。对于UGC产品来说,内容风控是底线。只有在底线之上,我们才能讨论内容的质量和产品的质量。
本文将结合作者的经验,讨论内容审核流程、不同类型的内容,以及对用户体验的影响。
一、完整的审核流程
1)机器审查
使用AI技术对用户上传的内容进行一级过滤,或者提供一些有助于审核的信息。
机器审核的结果分为两种,一种是AI可以准确做出判断,一种是模棱两可,机器无法判断。后者需要流入人工审核,这部分一般不超过总数的5%,前者需要抽查来评估准确性。
机器识别的优势在于处理效率高,能够在短时间内处理大量内容。缺点是不够灵活。人类可以钻各种规则的漏洞。然而,机器要学会识别它们,通常需要大量的数据和算法来覆盖它们。
2)人工审核
机器审核无法确定的内容将进入人工审核。人工审核的优点是灵活性。与一机多用的标准相比,人工审核可以大大减少意外伤害。缺点也很明显,依靠体力劳动,审计效率太低。
2019年,快手招募了3000名内容审稿人,将现有的审稿团队从2000人扩大到5000人。在国外,凭借Facebook自己的算法,人工审核团队已经达到1.50,000人;在YouTube上谷歌大脑算法的支持下,审核团队的数量也达到了10000+。这说明即使机器审核过滤掉了大部分内容,剩下的5%的内容也是巨大的。人机协同审稿在未来很长一段时间内仍是审稿模式。
另外,反之完善人工审核的结果,提高机器审核的准确性,形成过程中的闭环。毕竟人工审核的量只有多招人才能达到,但是机器审核的效率很容易提升。
3)质量采样
按一定比例对机器审核和人工审核的结果进行抽样。抽检和机检的目的是判断机检的准确性,调整机检的规模。人工审核抽样主要是看是否按照标准执行,是否经过绩效评估。
4)高风险审查
在主流程的基础上,对“重点关注对象”再进行一次审核。高危内容包括:高曝光内容、高曝光用户、有历史违规的劣质用户等。 与直播审核类似,平台会在超高流量的*敏*感*词*设置常驻超级管道.
5)库存返利
定期通过机器审核查看库存内容。之所以需要定期重新扫描,是因为机器审核的标准随时都在变化,新规则无法覆盖旧内容。同时,库存检索还可以发现一些产品和代码中的漏洞。
6)用户报告
用户举报也是各UGC平台必备的风控手段。用户举报不仅可以利用用户的力量发*敏*感*词*山毒霸,因为被举报后没有及时处理,导致此事被放大。
7) 违规用户将被处罚
违规用户的处罚是是否被封禁或封禁,以及是否被判处有期徒刑或无期徒刑。这就需要一套完整的惩罚机制,按照一定的梯度规则来惩罚不同类型的违规行为。例如,如果您触碰底线,您将获得一次违规的称号;而对于低俗、辱骂等低风险的违规行为,会先给予警告和取缔,屡次违规、反复指导后给予封号。
另*敏*感*词*。
二、 审核时间
根据内容的不同,可以分为:issue before review 和 issue before review
适用于风险较高但对时效要求不高的内容。比如内容比较大的博客、文章、音视频作品等。
首刊后审适用于:时效性要求极高或风险极低的内容。比如直播、IM、弹幕。
除了风险和及时性考虑之外,还可以进行用户分层。例如,具有良好历史行为的优质用户理论上没有风险。您可以考虑先发送它们,然后再查看它们。
三、内容类型
1)文字
文字内容的复习,简单易行,难也难。很容易绕过各种规则,比如相似的字符,相似的声音,拼音,中间的各种字符。一些恶意发布有害内容的用户会尝试各种变体,直到可以将其发送出去。很难从规则中完全禁止它。
直播平台私聊截图
因此,需要对用户行为进行监控,对点击次数过多的用户进行预警,重点筛选是必要的。
此外,文本内容的处理方式有多种,如禁止发布、点击审核、替换等,可应用于不同的场景。
2)图片
依靠图像识别技术和OCR技术对图像内容和图像中的文字内容进行分析。然而,直到现在,图像识别的准确率还不算太高。比如机器会根据*敏*感*词*区域判断是否为*敏*感*词*内容。这样的识别准确率一定不能太高。
3)音频
音频识别可以做一些预处理:比如通过音频识别技术标记无声、极低音量或无意义的音频,加上音译+敏感词匹配,为人工审核提供尽可能多的帮助。由于音频审核不同于其他内容,时间成本相对较高。
4)直播
由于直播是流媒体内容,所以只能先发后评论。
现在业界普遍采用多屏滚动监控,即直播墙的形式,确保第一时间发现问题,第一时间处理。
四、 审核后处理意见
通常有以下几种方式来处理问题的内容:
删除:存在安全问题且不允许传播或发布的内容。自看:不存在安全问题,但内容不允许传播。用户可以将其发布在个人主页上,并自行享受。降级:没有安全问题,但不符合平台调性,与平台无关。不可分发:没有安全问题和质量问题的内容。音频质量差、视频卡顿和断帧等问题。五、用户体验
在控制内容风险的同时,肯定会对用户体验产生负面影响。如何减少影响:
尽量让用户的发布流程完整,体验更好。不必要的时候不要打扰用户。例如,应谨慎使用禁止发布的设计。更好的选择是让用户发布,然后在后续审核过程中下架或执行其他操作。白名单机制:保证核心用户体验不受影响,甚至更好。例如,优先审核白名单用户发布的内容,或先发布后审核。提高审核时效,让用户对审核时间有预期。审稿时效的提升取决于审稿技术和审稿流程的提升,对审稿时间的期望可以从产品设计入手,缓解用户等待审稿的焦虑。
以上三点都是为了优化发布者的体验。对于消费者来说,重点大概应该放在推荐系统上,比如:
如何隐式和显式聚合用户兴趣,推荐用户喜欢的内容,从用户体验的角度设计举报功能,听取用户意见。激励用户营造内容氛围。六、示例:文字审核
作者所在的公司已经建立了自己的文本审阅系统。在这里记录一下我的经历:
1)词库管理
除了基本的增删改查功能外,还需要注意以下几点:
敏感词需要细分吗?例如,我们将敏感词分为三个级别:高风险、中风险和低风险。大多数高危敏感词明显与政治有关,禁止在各业务条线发表。中低风险是敏感的。话语流入人体试验。分级的目的是为了减少误杀,保证用户体验,因为高危敏感词实际上只占很小的一部分。是否需要对词库进行细分,通常取决于业务线的数量和差异有多大。笔者最初的需求计划是划分默认词库+业务线专用词库,但后来发现这个没有必要,
2)匹配规则
为了尽可能多地捕获非法内容的变种,文本审查应支持多种匹配规则。这里有些例子:
3)业务接入
审计服务作为中台定位服务,应方便各业务线的接入。所以尽量把可配置的服务抽象出来,方便各种业务线的灵活接入。
4)黑白名单
其实更精准的就是列表管理,列表可以灵活配置,匹配某个词时想要返回什么样的结果。列表可以打开和关闭,使用列表管理特定时期的敏感词非常方便。
匹配过程中应忽略白名单中的敏感词。比如“中国”是敏感词,“中国好声音”和“*敏*感*词*中国”都没有风险,那么“*敏*感*词*中国,我会帮你”的“骄傲”不应该被打。
5)在线测试
提供在线检测功能。首先,更改敏感词后,可以查看是否有效;其次,您可以检查不确定内容是否存在风险。
6)统计
敏感词拦截量和拦截率:敏感词拦截情况如何,可以看到敏感词设置是否合理,对业务的影响如何。合理的拦截量应该在3%到5%之间。
具体拦截情况,比如哪些敏感词被拦截最多,这些敏感词的设置是否合理,是否有更好的处理这些敏感词的方法。
总之,数据可以揭示很多问题,也可以为后续的迭代提供思路。
本文由@挪威的糊糊原创发布给大家都是产品经理。未经许可禁止转载
标题图片来自Unsplash,基于CC0协议