网站内容发布审核流程(各个等监管部门也非常重视举报是否被处理,怎么办?)
优采云 发布时间: 2022-02-10 23:05网站内容发布审核流程(各个等监管部门也非常重视举报是否被处理,怎么办?)
用户报告也是每个UGC平台必不可少的风控手段。用户举报不仅可以利用用户的权力发*敏*感*词*山毒霸,就是因为被举报,没有及时处理,才导致事态放大。
7) 违规用户的处罚
违规用户将受到处罚,无论是禁言还是封禁,处罚是有期徒刑还是无期徒刑。这就需要一套完整的惩罚体系,对不同类型的违规行为按照一定的梯度规则进行惩罚。比如触碰了底线,一次违规就被封号;对于低俗、辱骂等低风险违规行为,首先会被警告封号,屡次违规后会被封号。
另*敏*感*词*。
二、复习时机
根据内容不同可分为:先发后审和先审后发
适用于:风险较高,但对时效性要求不高的内容。比如内容比较大的博客,文章,音视频作品等。
适用于:时效性要求极高的内容,或低风险的内容。比如直播、IM、弹幕。
除了考虑风险和时效,还可以做用户分层。比如历史行为良好的优质用户,理论上是没有风险的,可以考虑先issue再review。
三、内容类型
1)文字
对文字内容的审查,简单易懂,难说难懂。绕过各种规则很好,比如形近字、音近字、拼音、中间混杂的各种汉字。一些恶意发布有害内容的用户会尝试各种变体,直到他们可以将其发送出去。很难从规则中完全禁止它。
某直播平台私聊截图
因此,需要对用户行为进行监控,对点击次数过多的用户进行提醒,重点进行筛选。
另外,文本内容的处理方式有很多,比如禁止发布、命中提交、替换等,可以应用于不同的场景。
2)图片
依托图像识别技术和OCR技术,对图像内容和图像中的文字内容进行分析。但是,图像识别的准确率直到现在还不算太高。比如机器会根据*敏*感*词*区域判断是否为*敏*感*词*内容。这样的识别准确率不能太高。
3)音频
音频识别可以做一些预处理:比如无声、低音量或无意义的音频,通过音频识别技术标记出来,再加上音译+敏感词匹配,为人工复习提供尽可能多的帮助。因为音频评论不同于其他内容,时间成本相对较高。
4)直播
由于直播是流媒体内容,所以只能先发后审核。
现在业界普遍使用的是多屏滚动监控,也就是直播墙的形式,保证出现问题时,第一时间发现并处理。
四、审核后处理意见
审计判断问题的内容通常有以下几种处理方式:
删除:存在安全问题且不允许传播或发布的内容。
亲自查看:没有安全问题但不允许传播的内容。用户可以将其发布在他们的个人主页上,以供自己享用。
降级:无安全问题,但不符合平台调性,与平台无关。
不可分发:没有安全问题、质量问题的内容。音频质量差、视频卡顿和断帧等问题。
五、用户体验
在控制内容风险的同时,肯定会对用户体验产生负面影响。如何减少影响:
尽量让用户的发布过程完整,体验更好。不要在不必要的时候打断用户。例如,禁止发布等设计应谨慎使用。更好的选择是允许用户发布,然后在后续的审核过程中进行下架或其他操作。
白名单机制:保证核心用户的体验不受影响,甚至更好。例如,白名单用户发布的内容先审核,或者先发布的内容后审核。
提高审稿时间,让用户可以期待审稿时间。审稿时间的提高取决于审稿技术和审稿流程的改进。对审稿时间的预期可以从产品设计开始,减轻用户等待审稿的焦虑。
以上三点是为了优化发布者的体验。对于消费者来说,重点应该放在推荐系统上,比如:
如何隐式和显式地收敛用户兴趣,从而推荐用户喜欢的内容
从用户体验的角度设计报告功能,听取用户意见。激励用户共同营造内容氛围。
六、示例:文本审核
作者所在的公司建立了自己的文本审查系统。在这里记录下我的经历:
1)词库管理
除了基本的增删改查功能外,还需要注意以下几点:
敏感词是否需要细分。例如,我们将敏感词分为三个级别:高、中、低风险。大部分高危敏感词明显与政治相关,禁止在所有业务条线发布。中低风险敏感词词流入人体试验。分级的目的是为了减少误杀,保证用户体验,因为高危敏感词其实只占很小的一部分。
是否需要分词库通常取决于业务线的数量和差异有多大。笔者最初的需求方案是划分默认词库+业务线的特殊词库,但后来发现这没有必要,因为我们业务线最大的区别就是直播(对于一些低俗的内容更宽泛)。水平后完全可支撑。
2)匹配规则
为了尽可能多地捕获违规内容的变体,文本审核应支持各种匹配规则。这里有些例子:
3)服务访问
审计业务作为中台定位的服务,应方便各业务条线的接入。因此,尽量将可配置的业务抽象出来,方便各业务线灵活接入。
4)黑白名单
事实上,管理列表更准确。列表可以灵活配置,匹配一个词要返回什么样的结果。列表可以启用和禁用,用列表管理特定时期的敏感词非常方便。
白名单中的敏感词在匹配过程中应该被忽略。比如“中国”是个敏感词,而“中国好声音”和“*敏*感*词*中国”没有风险,那么“*敏*感*词*中国,我为你骄傲”就不应该被打。
5)在线检测
提供在线检测功能。首先,敏感词更改后,可以检测是否生效;其次,如果内容不确定,可以通过检测判断是否存在风险。
6)统计
敏感词的截取量和截取率:敏感词的截取情况如何,可以看出敏感词的设置是否合理,对业务的影响。更合理的拦截量应该是3%到5%。
具体的拦截情况,比如哪些敏感词被拦截最多,这些敏感词的设置是否合理,这些敏感词有没有更好的办法。