返回介绍

Vision(Under Construction!)

发布于 2025-01-31 22:20:49 字数 4399 浏览 0 评论 0 收藏 0

Vision

分为两大方向: Computer Vision 是处理虚拟数据, Machine Vision 是应对现实事物。

知名函式库,例如 OpenCV 和 HALCON。

课程

http://vision.princeton.edu/courses/COS598/2014sp/
http://vision.princeton.edu/courses/COS429/2015fa/
https://cvg.ethz.ch/teaching/compvis/
https://cvg.ethz.ch/teaching/3dvision/
https://courses.cs.washington.edu/courses/cse455/10au/notes.html
https://courses.cs.washington.edu/courses/cse455/14au/notes/index.html
http://vision.stanford.edu/teaching.html
http://www.cc.gatech.edu/~hays/

Visual Sensor(Under Construction!)

Visual Sensor

视觉感测器。人类视觉依赖光线,但是 动物视觉 、机器视觉则不见得跟光线有关。声纳、雷达、陀螺仪,都可以做为视觉设备。

RGBD Sensor

获取颜色 RGB 数值以及深度数值。

http://vision.princeton.edu/research.html
http://vision.princeton.edu/projects/2015/RobotInARoom/
Kinect。微软出产的 RGBD sensor,知名电玩设备。
OpenNI。侦测现实世界场景、动作的函式库。
disparity estimation  3d 边缘侦测

Range Imaging

获取深度。

Multispectral Imaging

Visual Recognition(Under Construction!)

文字辨识(Optical Character Recognition)

手写辨识(Handwriting Recognition)

自从有了电脑之后, 逐渐改用电脑储存资料,节省空间。 自古以来都是用键盘滑鼠输入资料, 最近几年终于出现了比较直觉的方式, 可以直接在触控式萤幕上面写字。 虽然手写比打字来得慢, 但是手写不需要额外器材, 随时随地都能手写,不需要随身带著一个键盘。 用电脑判断使用者触摸的地方,显示对应线条; 用电脑把线条轨迹转换成文字。 这整个称作手写辨识 handwriting recognition。 另外还可以配合输入法选字系统,以辅助辨识。 最后补充一下, 如果你觉得手写辨识的演算法太难实作, 也可以採用“人工智慧”的方式唷!

手绘辨识(Sketch Recognition)

事实上除了写文字之外,也可以画图表。 虽说文字是从画图来的(甲骨文), 不过手写辨识与手绘辨识的原理感觉上不太相同。 手写辨识注重笔顺和线条走向, 手绘辨识注重的是形状是否相符。 光是画图还不够有趣, 有了触控式萤幕和电子白板之后, 再结合其他技术, 课堂上的教学花样就变多了。 如果手绘辨识和手写辨识两个功能可以结合那就方便多了~

Unistroke Recognition
https://depts.washington.edu/aimgroup/proj/dollar/

Visual Tracking(Under Construction!)

手势辨识(Gesture Recognition)

自从 Kinect 推出之后,侦测人体动作就变得非常轻鬆。 人类身体最灵巧的就是手了, 所以手势辨识就变得相当重要。 除了要找到手的位置以外,还得找到手的动向才行。 能够侦测手势之后,就可以用手代替滑鼠... 当然也可以辨识手语囉! 配合机器学习的技术, 还能让电脑透过手语新闻影片自动学习。 加上手套、指套, 更容易辨识手部动作,进行更精密的操作。 再配合投影机和摄影机,就能自在的控制电脑了。

脸部追踪(Face Tracking)

首先根据五官特徵,从影片当中找到脸部的五官位置。(Face Capture) 相关的模型有 Active Shape Model 和 Active Appearance Model。 http://home.isr.uc.pt/~pedromartins/ 建立五官的对应关係之后,甚至可以换脸。(Face Alignment) 建立五官的对应关係之后,还可以变形。(Face Interpolation) 可以用来追踪罪犯,从影片中找出脸部。(Face Detection) 然后迅速比对面容。(Face Recognition) 或者是动画配音。 依照嘴型,镶嵌文字,称做“配音 Dedubbing”。 依照文字,镶嵌嘴型,称做“对嘴 Lip Sync”。 McGurk Effect https://www.youtube.com/watch?v=_UzWeZZ9XeQ http://gvv.mpi-inf.mpg.de/projects/VisualDubbing/index.html 最后来个大合体

唇语辨识(Lipreading)

车牌辨识(License Plate Recognition)

车牌辨识主要的用途是监视行车安全、捕捉罪犯。 文字辨识的加强版。关键点在于如何找到车牌位置。 可以说是几乎已被彻底解决的问题,因此不是当前的研究热点。 另一方面车牌辨识很容易找到替代方案,例如 e-tag。

物体辨识(Object Recognitiom)

物体追踪(Object Tracking)

http://info.ee.surrey.ac.uk/Personal/Z.Kalal/tld.html 有位学生开发了物体追踪的演算法, 可以侦测、追踪摄影镜头中的物体, 物体的种类可以自行设定。 使用到了影像处理和机器学习的学问, 抽取色彩和连通性之类的东西作为特徵, 然后进行图片辨识。

肢体动作追踪(Human Pose Tracking)

Visual Measurement(Under Construction!)

视觉测量(Visual Measurement)

观看物体,测量长度。

视觉随动(Visual Servoing)

根据视觉做动作。

 

自动光学检查(Automated Optical Inspection)

在工厂产品线上,用机器代替人类手眼, 配合光学摄影检查产品瑕疵, 配合机械手臂拼装零件。 人类只要检查机器是否正常运作即可。

视觉测程(Visual Odometry)

走动观看环境,察觉自身动向。彷彿知觉动作训练。

视觉同步定位与建图(Visual SLAM)

走动观看环境,察觉自身方位、绘制周遭地图。彷彿即时战略游戏的开图过程。

Monte Carlo localization
http://www.cs.washington.edu/robotics/mcl/

1. 首先要有地图。

2. 地图的建立方法
  (1) 通常沿著天花板走
  (2) range sensor 照一照,得到一堆点。
  (3) Hough Transform/RANSAC/ICP 拉成直线。

3. 机器人在某处重开机,不知自己身在何处,准备密室逃脱。

4. 机器人看到门,找到地图上所有一样的门,在地图上标记。
   让这些地点的机率特别大、一样大。

5. 机器人移动,地图上所有标记处一起移动。地图没有动。
  (1) 如果不知道方位,所有标记处呈辐射散开。其实可以装个指南针。
  (2) 如果知道方位,所有标记处朝同一方向移动。

6. 机器人又看到门,找到地图上所有一样的门,在地图上标记。
  (1) 原标记、新标记重叠。使用乘法,而不使用加法。
  (2) 统计学的观点,这是两次观察,理应是 joint distribution。

7. 一直重複上述行为,直到某个标记处机率特别高,
   机器人就能确定自己正在何处。甚至倒推轨迹。

8. 除了门以外,最常用的是牆壁、地标。
   地标只有一处有,机率特别高。标记重叠时,使用乘法,乘出来的机率特别大。

9. belief, bayes 是用来装作文青的。
   (1) 机器人移动时,标记跟著移动,此处可以再套上机率。
       决定哪个移动方向最有可能出现。

10. 至于如何从一张图片上找出地标,是影像处理的问题。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文