网站内容发布审核流程(内容审核的方式与流程,你知道吗?(上))
优采云 发布时间: 2022-03-30 13:16网站内容发布审核流程(内容审核的方式与流程,你知道吗?(上))
对于信息产品和内容产品,内容评论是必不可少的环节之一。随着人工智能的发展,机器可以代替部分审核工作,但由于内容的复杂性,人工审核是必不可少的,还有其他几点需要考虑。在这篇文章中,作者为我们讲解了内容审核的方法和流程,希望对大家有所帮助。
什么是内容审核?
简单地说:查看用户在社交平台上上传、发布或分享的内容(文字、图片、音频、视频)。
其主要目的是过滤低质量和低俗的内容,从而产生高质量的内容,防止用户体验下降,保持良好的内容基调。
在这个过程中,平台会有一个专业的内容标准作为参考。这时候就存在人工筛选效率低、成本高的大问题。
因此,很多内容平台使用算法进行过滤,通过人工和算法的有效结合来提高效率。
过滤出来的内容基本是无害的,即使质量不高,但也不存在风险问题。这时,企业将面临是先发后审还是先发的选择:
“先发后审”和“先发后发”的适用场景:
一、审核方式
不管是什么内容审核,都应该包括以下四个基本模块:机器审核、人工审核、用户投诉审核、结果审核。
1. 机器审查
根据既定规则或机器学习算法审查内容。
通常,成熟的审核系统可以自动审核和处理 95% 甚至 99% 以上的内容。如果确定有问题,会自动删除。如果难以判断是否有问题,则会进行标记并进入人工审核流程。
2. 人工审核
虽然用户投诉审核和结果审核多为人工审核,但这里所说的人工审核是指审核机无法判断的内容,一般不超过平台内容的5%。
但对于一些大型内容平台来说,绝对数量已经不少了。在内容大爆炸的时代,我们看到很多平台在全国各地都有多个评论中心,每个评论中心都有数千甚至数万名员工。
3. 用户投诉审核
是对前两者的补充,有很多以前没有出现过的违法内容;所以它们不在可以过滤的规则范围内,或者非常隐蔽,规则很难严格过滤。
用户投诉是发现新问题的重要渠道。通过知乎的危机事件,我们应该更加重视对投诉的审查,并相应地对机器审查进行补充。
4. 结果审核
通常采取抽查的方式,比如审查机器删除的内容,看规则或算法是否过于严格;例如,通过检查手动删除和传递的内容,查看员工的工作是否按要求执行;例如,通过检查整体内容,看看是否有任何新问题被忽视。
二、审核流程
具体流程以下图为例:
机器审核先通过,机器审核通过或不通过;如果机器审核不通过,则进行人工审核;对于机器审核,进行人工抽样审核。三、审计的四个维度
这里一般会审核四个维度,关键字审核、用户发帖限制、重复内容过滤和白/黑名单用户。
1. 关键词回顾
词过滤过程,关键词主要分为三类:
1)禁止关键词
只要匹配了这个词,内容就会被自动删除或阻止提交。禁令关键词通常只收录几个词,例如露骨的*敏*感*词*、邪教和广告的独家关键词。
2)回顾关键词
这是最常见的 关键词 类型。只要匹配,就会自动进入后台审核。文章 中的关键词 会被高亮列出,有助于审稿人快速判断。. 节制关键词也应该尽量排他关键词,防止后台拦截太多内容。
3)替换关键词
在很多平台上,我们会在文中看到莫名其妙的数字或缩写*,可能不是文章的作者写的,而是系统自动替换的单词。平台不想要这个 关键词,但它通常可以被读者阅读,而不是其他东西。例如,一些政治、宗教和不文明的术语可能会被自动替换。
当然,管理员在添加关键词时,往往不会直接在后台添加关键词。否则,用户可以通过很简单的方式避开关键词过滤器,比如在关键词中加一个空格,系统将难以匹配。
因此,一般背景会支持限定符 {x} 来限制两个相邻字符之间的可忽略文本,其中 x 是要忽略的字节数。Discuz!网站后台有明确说明,如“a{1}s{2}s”(不带引号)可以过滤“ass”或“axsxs”和“axsxxs”等。
对于汉字,如果使用GBK和Big-5版本,每个汉字相当于2个字节;如果使用 UTF-8 版本,每个汉字相当于 3 个字节。
此外,关键词 还可以支持正则表达式来匹配 关键词 与某些模式。例如,“/1\d{10}([^\d]+|$)/”(不带引号)用于匹配手机号码。正则表达式太多了,有兴趣可以搜索学习。
2. 用户发帖限制
主要限制一位用户发送无限制的评论。
在这种情况下,可以设置同一用户在一分钟内最多发送一条评论;1小时内最多10条评论,一天最多30条评论。如果评论数超过评论数,就会弹出一个祝酒词,“我已经厌倦了说太多,拜托。休息一下”提示。
其实这个限制上线后,发现广告主会继续注册新账号来避免这个问题,以后可以考虑。有严格的条件,例如新用户需要注册多久才能发表评论,或者必须绑定手机号码才能发表评论。
3. 重复内容过滤
这通常用于广告。
比较时,去掉“tiktok、sound”、“kuai aabbshou”等除汉字以外的符号,比较时使用“抖音”、“kuaishou”;将评论与同一用户的上一条评论进行比较, 10 如果以上一个汉字的重复率为 70%(20,60%; 30,50%),则祝酒词“请勿发布重复内容”弹出窗口; 同时,评论仅与评论库中最新发布的 50 条评论进行比较。如果其中一个汉字的重复率达到 80% 或 20 个以上,则机器复习失败(30、70%;50、60%);
比较重复内容时,请务必删除一些无关符号。因为很多小广告喜欢加空格和逗号。他们通常还保留几份副本,可以与评论库进行比较;这也可以避免更改其编号和副本的问题。
4. 白名单用户、黑名单用户
白名单用户和黑名单用户需要有可编辑的背景,可以随时增减;如果同一用户一天内未查看超过 10 条评论,则会自动将其列入黑名单。
白名单用户不受发帖数量限制,但需要检查内容是否有广告词、敏感词和屏蔽词。如果一天内发表的评论超过10条,机器审核不通过,也会被自动列入黑名单。被列入黑名单的用户发表评论时,弹出“暂时不能发表评论”的祝酒词或机器审核直接失败。
最后我补充一下,没有IP限制,因为公共区域的wifi好像是同一个IP。虽然我真的希望处理垃圾评论的问题,但我还是希望它不会影响到普通用户。
以上基本上是需要了解的内容回顾点。
版权声明:本文内容由网民自发投稿,与本文相关的观点和内容仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如果您在本站发现任何涉嫌侵权/违反法律法规的内容,请立即联系并删除!