|
|
|
|
|
|
s**********l 发帖数: 8966 | 1 [心得]图形和图像
发信站: 水木社区 (Thu Dec 18 21:45:24 2014), 站内
既然这个板块是讲这个两个领域,恰巧学在图形(Graph),干在图像(Image),聊聊
两者的异同。一家之言,想到哪儿,写到哪儿,还望指正。
图形是以点线面等3D的元素来描述这个世界,大多数的时候是以矢量的形式来呈现。而
图像是是以2D的一个一个像素来真实的呈现这个世界,多数时候是标量的单个像素的矩
阵表示。图像加上时间维度就成了视频。图像是人眼对于世界最原始的还原,而图形则
是人类对世界的抽象。通俗点,如果要描述一张桌子,拿着相机咔嚓一下就是一张图像
,而图形则要用点线面来构建一个模型,然后加上材质光照来通过一定的模型来渲染而
变成一个图像。
图形的主要内容是建模(Modeling)和绘制(Rendering),建模的代表软件是建筑类
的CAD类的软件,譬如AutoCAD,比较通用的3DMax,Maya等。绘制最著名的软件是
RenderMan,专门用来制作电影的。图形学现在的发展方向是模型编辑,大场景建模,
真实感绘制,非真实感绘制,群体动画,运动捕获,基于物理的仿真等。图形学每个子
领域的知识点都很深,譬如做绘制的和做建模的差异就很大,做头发模拟的和做衣服模
拟的也千差万别。在国内,浙江大学的CADCG实验室以及微软亚研是世界顶级的研究单
位,他们在SIGGRAPH(顶级图形学会议,科技界奥运会)的文章在2000年后每年都有3-
4篇。
图形对人类的影响:1.游戏,这个就不说了,有目共睹。2.电影,特别是那些3D动画电
影。3.工业设计。4. 对计算机显卡能力的提高,由于图形学的大量的三角面片的处理
(很多早起的工作站和小型机是用来跑图形学任务的。),使得显卡从固定模式走向可
编程模式,计算速度大大超过了普通的CPU。而这又直接的催化了当前的比较盛行的
Deep Learning技术。现在DL中的CNN模型和80年代的没有本质的区别,由于计算能力的
限制以前基本在5层以下,现在能够做到20多层(GoogLeNet的23层),其实其训练还是
用的基本的BP方法,加了些防止Overfitting的trick。这些都归功于NVIDIA的Kesla系
列显卡。
图形的发展方向以及可能的钱点:1.傻瓜式的操作,譬如用户用手势就可以将人物动起
来。2.虚拟试衣。
图像的主要内容是处理(Processing)和理解(Understanding),前者很容易理解,
譬如除燥,美颜,分割等,代表软件是Photoshop,变成傻瓜点的美图秀秀等。这些基
本是单张相片的处理,涉及到多张图片的话,如果加上时间,就是视频。如果两张相片
,涉及到不同的视点的,可以归纳为视觉(Vision),对于视觉来说,最大的问题就是
通过匹配找到视差,通过多个2D image,试图重建当时的3D场景。这个就是逆向工程,
是图形图像结合的比较深的部分。通过2D image来建模3D的场景,这个是3D打印的前提
。3D打印能不能流行,个人认为如果能够以经济的方式来快速重建某个物体的3D模型,
那么这扇大门将会顺利的打开。另外属于图像的还有一部分就是编码,这个是图像的重
要分支。 理解在图像里面叫做模式识别,譬如字符识别,人脸识别,指纹识别,物体
识别等等。基本的思路是提取特征,然后使用某个分类算法进行比对。最近比较流行的
Deep Learning,不提特征,直接进行学习,使得一些传统的任务得到质的飞越。譬如
2014年,google在imagenet的task 1中利用23层CNN吧错误率降到了6%多(TOP5)。正
如罗马不是一日养成的,CNN最近这么受到工业界的青睐,是得益于当今GPU技术的发展
以及云计算的普及(大的计算都是在云端完成)。DL所缺少的是背后的理论基础,不能
在原理上解释为什么可以这么牛?
图像的一些思考: 其实图像只是人眼看到的一部分,图像中缺少的是人眼中的深度信
息,而这个深度信息的缺失对于一些图像任务来说非常重要。我觉得这个是图像在工业
界的发展不温不火的主要原因,也就是图像没有一个形成巨大市场的应用。其实现在摄
像头遍布各地,大多时候还是靠人工取查询检索。如果能够改造现在的摄像头,使得其
加上深度信息(微软的Kinect,室内4M左右的精度),那么就会使得一些任务变成可以
实用。我想这个领域应该可以成长出一个千亿市值的公司。 | l*****s 发帖数: 125 | |
|
|
|
|
|