网站内容发布审核流程( 几年网信谈内容审核的流程、不同类型的内容以及影响)

优采云发布时间: 2021-11-03 02:16

　　网站内容发布审核流程(

几年网信谈内容审核的流程、不同类型的内容以及影响)

　　近年来，国家网信办多次报道各种网站平台新闻。部分平台已被要求限期整改，情节严重的将无限期下架。

　　对于内容产品，内容审核是不可避免的。用户上传的海量内容需要经过严格的审核才能呈现给消费者。对于UGC产品来说，内容风控是底线。只有在底线之上，我们才能讨论内容的质量和产品的质量。

　　本文将结合作者的经验，讨论内容审核流程、不同类型的内容，以及对用户体验的影响。

　　一、完整的审核流程

　　1）机器审查

　　使用AI技术对用户上传的内容进行一级过滤，或者提供一些有助于审核的信息。

　　机器审核的结果分为两种，一种是AI可以准确做出判断，一种是模棱两可，机器无法判断。后者需要流入人工审核，这部分一般不超过总数的5%，前者需要抽查来评估准确性。

　　机器识别的优势在于处理效率高，能够在短时间内处理大量内容。缺点是不够灵活。人类可以钻各种规则的漏洞。然而，机器要学会识别它们，通常需要大量的数据和算法来覆盖它们。

　　2）人工审核

　　机器审核无法确定的内容将进入人工审核。人工审核的优点是灵活性。与一机多用的标准相比，人工审核可以大大减少意外伤害。缺点也很明显，依靠体力劳动，审计效率太低。

　　2019年，快手招募了3000名内容审稿人，将现有的审稿团队从2000人扩大到5000人。在国外，凭借Facebook自己的算法，人工审核团队已经达到1.50,000人；在YouTube上谷歌大脑算法的支持下，审核团队的数量也达到了10000+。这说明即使机器审核过滤掉了大部分内容，剩下的5%的内容也是巨大的。人机协同审稿在未来很长一段时间内仍是审稿模式。

　　另外，反之完善人工审核的结果，提高机器审核的准确性，形成过程中的闭环。毕竟人工审核的量只有多招人才能达到，但是机器审核的效率很容易提升。

　　3）质量采样

　　按一定比例对机器审核和人工审核的结果进行抽样。抽检和机检的目的是判断机检的准确性，调整机检的规模。人工审核抽样主要是看是否按照标准执行，是否经过绩效评估。

　　4）高风险审查

　　在主流程的基础上，对“重点关注对象”再进行一次审核。高危内容包括：高曝光内容、高曝光用户、有历史违规的劣质用户等。与直播审核类似，平台会在超高流量的*敏*感*词*设置常驻超级管道.

　　5）库存返利

　　定期通过机器审核查看库存内容。之所以需要定期重新扫描，是因为机器审核的标准随时都在变化，新规则无法覆盖旧内容。同时，库存检索还可以发现一些产品和代码中的漏洞。

　　6）用户报告

　　用户举报也是各UGC平台必备的风控手段。用户举报不仅可以利用用户的力量发*敏*感*词*山毒霸，因为被举报后没有及时处理，导致此事被放大。

　　7）违规用户将被处罚

　　违规用户的处罚是是否被封禁或封禁，以及是否被判处有期徒刑或无期徒刑。这就需要一套完整的惩罚机制，按照一定的梯度规则来惩罚不同类型的违规行为。例如，如果您触碰底线，您将获得一次违规的称号；而对于低俗、辱骂等低风险的违规行为，会先给予警告和取缔，屡次违规、反复指导后给予封号。

　　另*敏*感*词*。

　　二、审核时间

　　根据内容的不同，可以分为：issue before review 和 issue before review

　　适用于风险较高但对时效要求不高的内容。比如内容比较大的博客、文章、音视频作品等。

　　首刊后审适用于：时效性要求极高或风险极低的内容。比如直播、IM、弹幕。

　　除了风险和及时性考虑之外，还可以进行用户分层。例如，具有良好历史行为的优质用户理论上没有风险。您可以考虑先发送它们，然后再查看它们。

　　三、内容类型

　　1）文字

　　文字内容的复习，简单易行，难也难。很容易绕过各种规则，比如相似的字符，相似的声音，拼音，中间的各种字符。一些恶意发布有害内容的用户会尝试各种变体，直到可以将其发送出去。很难从规则中完全禁止它。

　　直播平台私聊截图

　　因此，需要对用户行为进行监控，对点击次数过多的用户进行预警，重点筛选是必要的。

　　此外，文本内容的处理方式有多种，如禁止发布、点击审核、替换等，可应用于不同的场景。

　　2）图片

　　依靠图像识别技术和OCR技术对图像内容和图像中的文字内容进行分析。然而，直到现在，图像识别的准确率还不算太高。比如机器会根据*敏*感*词*区域判断是否为*敏*感*词*内容。这样的识别准确率一定不能太高。

　　3）音频

　　音频识别可以做一些预处理：比如通过音频识别技术标记无声、极低音量或无意义的音频，加上音译+敏感词匹配，为人工审核提供尽可能多的帮助。由于音频审核不同于其他内容，时间成本相对较高。

　　4）直播

　　由于直播是流媒体内容，所以只能先发后评论。

　　现在业界普遍采用多屏滚动监控，即直播墙的形式，确保第一时间发现问题，第一时间处理。

　　四、审核后处理意见

　　通常有以下几种方式来处理问题的内容：

　　删除：存在安全问题且不允许传播或发布的内容。自看：不存在安全问题，但内容不允许传播。用户可以将其发布在个人主页上，并自行享受。降级：没有安全问题，但不符合平台调性，与平台无关。不可分发：没有安全问题和质量问题的内容。音频质量差、视频卡顿和断帧等问题。五、用户体验

　　在控制内容风险的同时，肯定会对用户体验产生负面影响。如何减少影响：

　　尽量让用户的发布流程完整，体验更好。不必要的时候不要打扰用户。例如，应谨慎使用禁止发布的设计。更好的选择是让用户发布，然后在后续审核过程中下架或执行其他操作。白名单机制：保证核心用户体验不受影响，甚至更好。例如，优先审核白名单用户发布的内容，或先发布后审核。提高审核时效，让用户对审核时间有预期。审稿时效的提升取决于审稿技术和审稿流程的提升，对审稿时间的期望可以从产品设计入手，缓解用户等待审稿的焦虑。

　　以上三点都是为了优化发布者的体验。对于消费者来说，重点大概应该放在推荐系统上，比如：

　　如何隐式和显式聚合用户兴趣，推荐用户喜欢的内容，从用户体验的角度设计举报功能，听取用户意见。激励用户营造内容氛围。六、示例：文字审核

　　作者所在的公司已经建立了自己的文本审阅系统。在这里记录一下我的经历：

　　1）词库管理

　　除了基本的增删改查功能外，还需要注意以下几点：

　　敏感词需要细分吗？例如，我们将敏感词分为三个级别：高风险、中风险和低风险。大多数高危敏感词明显与政治有关，禁止在各业务条线发表。中低风险是敏感的。话语流入人体试验。分级的目的是为了减少误杀，保证用户体验，因为高危敏感词实际上只占很小的一部分。是否需要对词库进行细分，通常取决于业务线的数量和差异有多大。笔者最初的需求计划是划分默认词库+业务线专用词库，但后来发现这个没有必要，

　　2）匹配规则

　　为了尽可能多地捕获非法内容的变种，文本审查应支持多种匹配规则。这里有些例子：

　　3）业务接入

　　审计服务作为中台定位服务，应方便各业务线的接入。所以尽量把可配置的服务抽象出来，方便各种业务线的灵活接入。

　　4）黑白名单

　　其实更精准的就是列表管理，列表可以灵活配置，匹配某个词时想要返回什么样的结果。列表可以打开和关闭，使用列表管理特定时期的敏感词非常方便。

　　匹配过程中应忽略白名单中的敏感词。比如“中国”是敏感词，“中国好声音”和“*敏*感*词*中国”都没有风险，那么“*敏*感*词*中国，我会帮你”的“骄傲”不应该被打。

　　5）在线测试

　　提供在线检测功能。首先，更改敏感词后，可以查看是否有效；其次，您可以检查不确定内容是否存在风险。

　　6）统计

　　敏感词拦截量和拦截率：敏感词拦截情况如何，可以看到敏感词设置是否合理，对业务的影响如何。合理的拦截量应该在3%到5%之间。

　　具体拦截情况，比如哪些敏感词被拦截最多，这些敏感词的设置是否合理，是否有更好的处理这些敏感词的方法。

　　总之，数据可以揭示很多问题，也可以为后续的迭代提供思路。

　　本文由@挪威的糊糊原创发布给大家都是产品经理。未经许可禁止转载

　　标题图片来自Unsplash，基于CC0协议

0

2021-11-03

网站内容发布审核流程

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容发布审核流程( 几年网信谈内容审核的流程、不同类型的内容以及影响)

0 个评论

发起人

AI时代内容工厂

网站内容发布审核流程( 几年网信谈内容审核的流程、不同类型的内容以及影响)

0 个评论

发起人

相关问题