内容审核的方式与流程,你知道吗?(上)
优采云 发布时间: 2021-08-18 00:25内容审核的方式与流程,你知道吗?(上)
对于信息产品和内容产品,内容审核是必不可少的环节之一。借助人工智能的发展,机器可以代替部分审稿工作,但由于内容复杂,人工审稿是必不可少的,还有其他几点需要考虑。这个文章,作者给我们讲解了内容审核的方法和流程,希望对你有帮助。
什么是内容审核?
简单来说:查看用户在社交平台上上传、发布或分享的内容(文字、图片、音频、视频)。
主要目的是过滤低质量、低俗的内容,从而产出高质量的内容,防止用户体验下降,保持良好的内容基调。
在这个过程中,平台会对内容有专业的标准作为参考。这时候的一个大问题就是人工筛选效率低、成本高。
因此,很多内容平台通过人工与算法的有效结合,通过算法过滤,提高效率。
过滤后的内容基本无害。即使质量不高,也没有风险。此时,公司将面临是先审后发还是先审后发的选择:
“issue before review”和“review before issue”的场景:
一、review 方法
无论审核的内容是什么,都应该包括以下四个基本模块:机器审核、人工审核、用户投诉审核、结果审核。
1.机器评测
根据既定规则或机器学习算法审查内容。
通常,成熟的审核系统可以自动审核和处理 95% 甚至 99% 以上的内容。如果确定有问题,它将被自动删除。如果难以判断是否有问题,将进行标记并进入人工审核流程。
2. 人工审核
虽然用户投诉审核和结果审核多为人工审核,但这里所说的人工审核特指审核机无法区分的内容,一般不超过平台内容的5%。
但是对于一些大型内容平台来说,绝对数量已经很多了。在内容爆炸的时代,我们看到很多平台在全国都有多个审计中心,每个审计中心的员工数都是数千甚至数万。
3.用户投诉审核
这是前两个的补救措施。有很多以前没有出现过的违规行为;因此,它不在可以过滤的规则范围内,或者非常隐蔽,规则很难严格过滤。
用户投诉是发现新问题的重要渠道。通过知乎的危机事件,我们要更加重视投诉的审核,及时对机器审核进行相应的补充。
4.结果审核
通常采用抽样检查,例如查看机器删除的内容,看规则或算法是否过于严格;例如,通过查看手动删除和批准的内容,查看员工的工作是否按要求进行;比如通过对内容的整体检查,看看是否有没有发现的新问题。
二、审核流程
具体流程,下图为例子:
先通过机器审核,然后通过或不通过机器审核;如果机器未通过机器审核,则将进行人工审核;如果机器通过机器审核,则进行人工抽样审核。
三、审计的四个维度
这里一般有评论、关键词评论、用户发帖限制、重复内容过滤、白名单/黑名单用户四个维度。
1.关键词review
在词过滤方面,关键词主要分为三类:
1)ban关键词
只要匹配到这个词,内容就会被自动删除或禁止提交。通常只有少数几个词会被列入关键词的禁止范围内,比如露骨*敏*感*词*、邪教、广告独家关键词。
2)review关键词
这是最常见的关键词 类别。只要匹配,就会自动进入后台审核。 文章中的关键词会高亮列出,方便审稿人快速判断。评论关键词也应该是独家关键词,防止过多的内容被拦截到后台。
3)replace关键词
在很多平台上,我们会在文中看到莫名其妙的数字或字母缩写*。这个可能不是文章author 写的,但是这个词会被系统自动替换。平台不希望这个关键词出现,但读者通常可以通过替换其他东西来理解它。例如,某些政治、宗教和不文明的术语可能会被自动替换。
当然,管理员在添加关键词时,往往不会直接在后台添加关键词。否则,用户可以通过非常简单的方式避免关键词 过滤。比如在关键词中加一个空格,系统就会很难匹配。
所以后台一般都支持限定符{x}来限制相邻两个字符之间的可忽略文本,x为要忽略的字节数。 Discuz!网站后台有明确说明,比如“a{1}s{2}s”(不带引号)可以过滤“ass”或者“axsxs”和“axsxxs”等等。
对于汉字,如果使用GBK和Big-5版本,每个汉字相当于2个字节;如果使用UTF-8版本,每个汉字相当于3个字节。
另外,关键词还可以支持正则表达式将关键词与某些模式匹配。例如“/1d{10}([^d]+|$)/”(不包括引号)用于匹配手机号码。正则表达式的内容太多了。有兴趣的可以搜索学习。
2. 用户发帖限制
主要是限制一个用户无限制地发送评论。
对于这种情况,可以设置同一用户一分钟最多发一条评论;一小时最多10条评论,一天最多30条评论。如果超过评论数,会弹出吐司“说话太多累了”。好的,请休息”提示。
其实这个限制上线后,发现广告商会不断注册新账号来规避这个问题。您可以考虑稍后添加它们。新用户注册多久可以发表评论,或者绑定手机号多久可以发表评论。这些严格的条件。
3.重复内容过滤
这通常用于广告。
比较时去掉汉字以外的任何符号,如“颤抖当音”、“快aabb手”,用“抖音”、“快手”进行比较;将该评论与同一用户的最后一条评论进行比较, 10 如果超过 1 个汉字的重复率达到 70%(20, 60%; 30, 50%),则会弹出“请不要发布重复内容”的祝酒词向上;同时,该评论只会与评论库中最近发布的50条评论进行比较,如果超过20个汉字其中一个的重复率达到80%,则机器审核失败(30, 70% ; 50, 60%);
在比较重复内容时,请务必删除一些不相关的符号。因为很多小广告喜欢加空格和逗号。他们通常还会保留几篇文案,可以与评论库中的文案进行比较;这样也可以避免改号和文案的问题。
4.白名单用户,黑名单用户
白名单用户和黑名单用户需要有一个可编辑的后台,可以随时添加或删除;如果同一用户一天内有超过10条不成功的评论,他们将被自动列入黑名单。
白名单用户不受发帖次数限制,但内容需要检查广告词、敏感词、屏蔽词。如果一天内发表评论超过10条,电脑审核不通过,也会自动进入黑名单。黑名单用户发表评论时,会弹出吐司“暂时不能发表评论”或直接电脑审核失败。
最后,没有IP限制,因为公共区域的wifi似乎有相同的IP。虽然非常希望能处理垃圾评论的问题,但还是希望不要对普通用户造成影响。