当前位置：文江博客话题详情

Google 如何通过安全搜索识别成人内容？

发布于 2024-10-10 07:09:56 字数 211 浏览 0 评论 0原文

我正在创建一个搜索引擎（用于学习），我想知道 Google 如何使用 Safesearch 识别成人内容和图像 ( http://en.wikipedia.org/wiki/Safesearch）。

程序语言并不重要，我只想知道通用程序语言的方法。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

遇到 2024-10-17 07:09:56

如果任何类型的内容过滤器的规则落入试图通过过滤器获取该内容的人手中，则过滤器将变得无效。

所以我认为谷歌的规则（1）不公开并且（2）经常改变。

也就是说，从一小部分成人网站黑名单开始，然后跟踪传出链接（和/或查找带有黑名单网站链接的网站）可能会发现大量成人网站。但绝不是全部，您还需要某种文本处理和图像识别算法。

注意：一个流行的理论是，成人内容提供商付费让人们在 stackoverflow.com 上提问，这样 Jon Skeet 和 Marc Gravell 就没有时间更新安全搜索过滤器。然而，很容易表明，乔恩和马克回答问题的频率如此之高，以至于任何此类策略在经济上都不可行。

回复收藏 0 原文

楠木可依 2024-10-17 07:09:56

本的回答在所有方面都是正确的，但我想补充一下我的考虑。

关于图像识别：在给定大量图像的情况下，您会发现使用模式识别来识别诸如裸露的乳房、阴茎等内部物体非常容易。

然而，所有人工智能算法都有弱点。您可能会遇到一定比例的图像被错误分类，具体取决于所使用的分类器的质量。

然后，您必须应用图像处理之外的其他标准。当然，Google 的标准不是公开的，但您可能会考虑使用 ICRA 标签来自愿将某些材料标记为成人材料、文本处理和跨域链接。如果我是安全搜索的创建者，我会采用以下模式：成人网站经常交换链接，因此您会在一组成人网站之间的链接图中发现很多交叉点。

总而言之，一个好的分类方法会使用几个较小的标准，对它们进行评分来确定图像是否是成人图像。

回复收藏 0 原文

层林尽染 2024-10-17 07:09:56

可能与过滤垃圾邮件的方式类似。

第一步是根据已知的成人网站创建一个训练集，并从中提取特征。这些可以是关键字、图像中使用的颜色、域名结构、whois 详细信息等等。与非成人内容相比，成人内容在某种程度上可能有特别不同的任何内容。

下一步是应用某种统计模型。贝叶斯模型似乎适用于垃圾邮件，但可能不适用于成人内容。

支持向量机看起来很合适，但那要复杂得多，我不是很了解我自己也很熟悉。

回复收藏 0 原文

~没有更多了~

关于作者

奶气

暂无简介

0 文章

0 评论

21 人气

关注发私信

友情链接

文江博客

Google 如何通过安全搜索识别成人内容？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

花开柳相依

zyhello

故友

对风讲故事

Oo萌小芽oO

梦明

友情链接

Google 如何通过安全搜索识别成人内容？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

花开柳相依

zyhello

故友

对风讲故事

Oo萌小芽oO

梦明

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。