C#-如何通过C#检测 色情 暴力 反动 的文字和图片
我现在想到的方法就是靠用户举报。
我理解这其中的难度,文字还好,图片难度很大。我想问的是,并不需要多么精准的检测。只需要模糊的检测,只要判断可能是色情 暴力 反动,就可以打一个待审核的标签。这样可以进一步检查。
我相信新浪微博之类的大型社交网站,肯定有相关的算法。
只是不知道有没有开源的。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
链接:如何通过程序鉴别含有成人内容的图片
我知道有些网站好像是根据图片里的像素值来判断的,比如接近皮肤颜色的像素占有的比例来判断,但是这样也会误判,比如说皮卡丘就曾经躺枪。。
文字好说,建个脏字典,运行前存成HashMap,判断一下就行,每天更新脏字典就行。然后字符串比较用个常见的KMP算法实现,效率就很高的。
图片就涉及图像识别技术了,这个我不是很了解。
但我想到了一个绕道的办法,每次有图片就POST到谷歌识图搜索界面,没有结果的或收到非法图片警告提示的一般就是有问题的图片。。。。。利用谷歌的技术,我们就得浪费点流量和时间了,还受网速影响。。
用图像识别技术,首先将各种身体关键部位的暴露图形进行建模,应用图像识别算法与上传的图片进行比对,在阈值范围内进行报警。
对于图像可以利用神经网络或者SVM等相关算法,将图像转换成数组进行建模,利用已有的图像训练矩阵,然后使用训练完毕的网络来判断新图像是不是符合标准,当然对于复杂图像的辨识可能会因为噪音等原因变得不准确,这就需要其他辅助技术来提高训练的精度
最简单的方案,就是在内容提交时,用正则表达式对内容进行匹配。
敏感文字设置成关键字表。
在匹配时,一次性读取出来,也可以存在于内存中,只读取一次,只有在更新关键字时,才重新读取。
对于一篇内容,只需要进行一次匹配,如果匹配到就标记成待审核。
对于图片,就没有办法了。