网站安全检测内容(文本信息检测处理流程(半)(半)(组图))
优采云 发布时间: 2022-03-08 01:20网站安全检测内容(文本信息检测处理流程(半)(半)(组图))
功能目标
对于客户(业务员、用户)录入的信息和上传的文件(后期),实现自动审核过滤,尽量少人工参与!
通过检测程序中的文本对象,可以有效降低内容违规的风险。但是,内容违规无法完全解决。
我们会通过前端js和后台服务自动处理大部分非法内容,并返回处理结果;小部分非法内容会被人工处理,具体逻辑根据不同业务场景提供不同的功能支持。
后期如果需要对图片、音视频文件进行内容检测,需要连接第三方接口。
内容审核自动化(半)
内容检测
内容审核计划
内容检测方案
以上第三方支持直接检测判断网站的内容。
文本内容检测实现
1.违规词汇检测和审查。
2.第三方接口测试和审计。
3.人工审核。
图片、音视频内容检测方案
1.第三方接口测试和审计。
2.人工审核。
文本反垃圾邮件摘要
反垃圾邮件算法
文本信息检测过程(半)自动化
核心是利用前端结合后端程序检测违规信息,通过应用程序自动判断和处理大部分违规信息,并返回相应的处理结果。有效降低内容违规风险。
对于程序未检测到的非法信息,通过人工审核策略,去除或删除缺失的非法信息。
文本信息检测处理流程
信息检测流程概述:
1、用户输入文本信息,前端通过敏感词库进行JS验证判断。如果无效,则返回结果;如果有效,则执行下一步;
2、在服务器端,通过敏感数据库对信息进行检测和判断。如果不合法,则返回结果;如果合法,则执行下一步;
3.调用第三方接口,检查判断,如果不合法,返回结果;如果合法,则将其保存到数据库中。【前期可省略此步骤】
4.人工审核,功能包括:检查审核、信息审核、取缔等操作。作为安全计划!(主要用于广告、屏幕刷新、添加重复数据)
注意:【词库较大,需要注意检测方法的执行时间。如果不影响业务,需要控制在50ms以内;持续时间取决于业务的容错能力]
补充
上述方案会增加文本内容检测程序的程序响应时间(尽量控制在10ms以内),进而影响整个应用程序的吞吐量。
前期:代码实现,优化方法执行逻辑,缩短程序执行时间。(测试方法执行时间)
应用集群可以稍后考虑。
审核结果处理计划
对于违规信息处理方案,根据不同的场景,可以考虑不同的落地设计方案:
1、弹出提示
2.界面信息提示
3.信息提示
4.频繁发送,限制
5. 信息下架
6.帐户被锁定或禁用
图像、音频和视频检查和审查
早期主要进行文本信息的检测和处理。
后期如果需要对图片、音视频文件进行内容检测,需要连接第三方接口。
文本信息检测算法
检测方法请参考--DFA算法/AC自动机,可有效缩短检测方法时间。
将敏感数据粗略构建成树状结构,完成搜索命中,然后进行处理。
多模式匹配算法:在主字符串中查找多个模式字符串。(字典树+kmp算法+错配指针)
(原则待办事项)
前端
对于客户输入的信息,通过js检测判断是否会命中敏感词。
后端
服务器:通过已有的敏感词数据表查询判断。如果敏感词较多,可以使用redis进行缓存处理。
数据库:敏感词数据表(后台维护可后期添加)
特色设计
场景 1:添加数据
结合人工审核,信息下架,网站不再显示。
视频检测
与第三方对接,待办事项