8.1 图像的机器学习
尽管有关文本和数值型数据的机器学习应用是讨论得最多的,还有大量的类似应用是关于图像的。其中许多集中在具有深远影响的前沿研究领域。
如今,我们习惯于运行Google搜索,从三个星期前阅读的一个新闻故事来找到一些奇怪的文本片段,并将第一项作为期待的结果。现在,想象一下,如果我们能够对图片、电影和GIF动图做同样的事情,那会怎样?例如,让我们假设你在六个月前看到一个GIF,它是完全适合你当前的Slack[2]聊天,但你所能记住的只是它有一只美洲驼,而一个男子试图喂它。现在,你很难找到这张动图,因为大多数图片搜索需要利用标签和图像周围的文本。然而在过去几年中,像Google这样的公司,在机器为图像内容打标签的方面取得了惊人的进步。当这项研究完全公布于众让大家都来使用,它会从根本上改变我们搜索图像的方式。
在Google Research的这篇博文中(http://googleresearch.blogspot.com/ 2014/11/a-picture-is-worth-thousand-coherent.html),他们描述了实现这一目标的进展,并阐述了完成它的一些技术挑战。例如,在图8-1中,可以看到炉子上有两个比萨饼。
图8-1
为了像这样标记图像,不仅需要理解每个对象,还需要理解它们之间的关系。即使那样,标签还需要与自然语言的短语匹配——也就是匹配人类的描述。例如,即使在技术上是正确的,一个人也永远不会将这张图标注为“在两个彼此相邻的比萨饼之下的烤箱”。
图像机器学习的另一种应用是人脸识别。你可能看过最近的新闻讨论了Facebook的DeepFace技术。据报道,这个应用程序是如此的先进,即使图像是人们的后脑勺,它也可以识别某个人——而且它识别的准确度近乎完美。
虽然这似乎对整个社会有可怕的影响,但是对于Facebook而言,这是价值连城的技术。一旦某个人在单张照片中被加注了标签,那么不再需要其他附加的标签——未来所有的照片的标注都是自动进行的。
应该指出这是一项艰巨的任务。一个人头发、服饰、年龄的改变——更别提每张照片中不同的拍摄角度和光线——都使得这项任务变得极具挑战性,甚至对人类也是如此。事实上,就像计算机已经开始在游戏中(如Alpha Go)超越人类,它们也开始在这种识别任务中赶超我们。
这种新的机器自我掌控水平来自于相对较新的一类算法,其术语是“深度学习”。本章稍后将仔细探讨深度学习,让你可以理解它与其他算法的不同之处,以及为什么它是如此的成功。然而,现在我们将从头开始,先来了解一下处理图像的基础知识。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论