自动审核系统算法与原理
需求,某大型平台每天信息提交量100w+,这些提交的信息中有部分触及敏感的字眼,需要审核。
新用户A在发布的n条信息,匹配敏感词m个,涉及到的信息条数k条。老用户B发布n2条信息,匹配敏感词m2条,占所发布信息中的k2条。现所采用的人工审核,导致需要审核k+k2条。如何设计出一套自动评级系统,最大量减少人工审核的工作量?算法逻辑是什么样的
我自己的思路:
设定三种不同的可信任级别
A最可信级别,触及敏感字眼直接绿灯通过。
B普通级别,根据触及的条数比率,如果过高则进入人工审核。
C观察级别,只要是触及敏感字眼必须进行人工审核。
若人工审核失败,降低可信任级别。
若人工审核成功,提升可信任级别。
若遇投诉通过或触及人工抽样检测结果不通过,加倍降低可信级别。
若可信级别过低低于阀值x,直接锁定或封禁账号。
可这种方案不太完整,貌似不太合理吧而且也缺乏具体细节计算方案
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论