由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 最近视觉领域的self supervised learning进展不少
相关主题
NLP是使用什么技术或框架实现的?哪个框架最适合快速开发手机app后台的web service?运算量比较
guvest听我一言有没有谁做 text mining 的?
胡扯几句什么叫Deep Learning入门深度学习真正有实用价值的应用
Pytorch靠谱吗?请教关于OpenNLP 和 Stanford NLP 选择
廖方舟 李哲 金奖! (转载)deep learning做embeded system,业界动态或者公司
[bssd]wdong,lightroom....来猜个东西stl的map可以嵌套几层?
请ML大神给点启发解一道 GOOGLE 面试题 ...
马工能转数据分析师吗?[合集] 解一道 GOOGLE 面试题 ... (转载)
相关话题的讨论汇总
话题: br话题: learning话题: 视觉话题: 旋转话题: train
进入Programming版参与讨论
1 (共1页)
C*****l
发帖数: 1
1
self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
train。
https://arxiv.org/pdf/1803.07728.pdf
这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to
predict旋转的角度。用这个task train一个feature extraction network。 为了准确
predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
还有一个最近的文章
https://sites.google.com/view/space-project-page
通过看video可以学习object-oriented的表象。
b*********r
发帖数: 44
2
就是结合了传统视觉特征提取里的思路

【在 C*****l 的大作中提到】
: self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
: train。
: https://arxiv.org/pdf/1803.07728.pdf
: 这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to
: predict旋转的角度。用这个task train一个feature extraction network。 为了准确
: predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
: 生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
: 还有一个最近的文章
: https://sites.google.com/view/space-project-page
: 通过看video可以学习object-oriented的表象。

C*****l
发帖数: 1
3
很多昆虫蜻蜓都有视觉,那么点神经物质,视觉应该不会那么难吧?

【在 b*********r 的大作中提到】
: 就是结合了传统视觉特征提取里的思路
x****u
发帖数: 44466
4
这个思路很好啊!
严格的说不是算法的改进,是训练方法的改进
人类拍摄的照片的默认角度是由主体的方向和位置的,用旋转角度做label可以充分利
用无标签的照片

【在 C*****l 的大作中提到】
: self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
: train。
: https://arxiv.org/pdf/1803.07728.pdf
: 这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to
: predict旋转的角度。用这个task train一个feature extraction network。 为了准确
: predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
: 生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
: 还有一个最近的文章
: https://sites.google.com/view/space-project-page
: 通过看video可以学习object-oriented的表象。

x****u
发帖数: 44466
5
最牛逼的地方是,昆虫的视觉和脊椎动物的视觉虽然类似,但二者的共同祖先却是在视
觉出现之前的
生物视觉实际上是一套算法而已,即使是外星小绿人也大概率有类似结构

【在 C*****l 的大作中提到】
: 很多昆虫蜻蜓都有视觉,那么点神经物质,视觉应该不会那么难吧?
w***g
发帖数: 5958
6
同意。

【在 x****u 的大作中提到】
: 这个思路很好啊!
: 严格的说不是算法的改进,是训练方法的改进
: 人类拍摄的照片的默认角度是由主体的方向和位置的,用旋转角度做label可以充分利
: 用无标签的照片

b*********r
发帖数: 44
7
昆虫蜻蜓是单片机,反应比人快,但是非常怀疑一个生命周期里有学习功能。

【在 C*****l 的大作中提到】
: 很多昆虫蜻蜓都有视觉,那么点神经物质,视觉应该不会那么难吧?
C*****l
发帖数: 1
8
这个idea不难想到,这篇文章最大的贡献是调出来了参数,使用了一些最近才出现的技
术,比如attention机制。

【在 x****u 的大作中提到】
: 这个思路很好啊!
: 严格的说不是算法的改进,是训练方法的改进
: 人类拍摄的照片的默认角度是由主体的方向和位置的,用旋转角度做label可以充分利
: 用无标签的照片

C*****l
发帖数: 1
9
10年之内能参悟出机器视觉的真谛么,话说神经科学太不给力,为啥连最简单的生物的
神经网络机制都搞不明白。

【在 x****u 的大作中提到】
: 最牛逼的地方是,昆虫的视觉和脊椎动物的视觉虽然类似,但二者的共同祖先却是在视
: 觉出现之前的
: 生物视觉实际上是一套算法而已,即使是外星小绿人也大概率有类似结构

g****t
发帖数: 31659
10
你们难道没有注意到,照相机和人视觉系统是根本不同的吗?人看东西的时候,脖子会
动的,眼球也会动,还会自动调整焦距。你看看运动员怎么用视觉的。
照片那种图片的产生过程多数都是固定角度来产生的。所以认知过程的很多维度,是从
照片那种图片无法推演的。
此其一。
其二,照相机的设计反映了认识主体和客体的二分。这个设计是旧的西方理念的产物。
感受,加上作用其上的先天范畴,带来经验和知识什么的。这是康德总结的。他把感受
单独分割出去。这连运动员对视觉的使用都解释不了的。
但是设计一套机器,带给用户另外的像素到知识的close loop,完全是可行的。这种设
计,本身也是对新认识论的探索。我不敢说这种loop会导致新的知识。但是导致新的经
验应该是可以的。
我有实证,具体设计不详细说。思路就是认为人看东西是信号接收和主动的探索的生成
变化。不是康德所说,感受-人的先天范畴的应用-经验认识 这样一个分而治之的过程
。分而治之是解决问题的好办法。不等于问题本身就是三个部分。


: 这个idea不难想到,这篇文章最大的贡献是调出来了参数,使用了一些最
近才出
现的技

: 术,比如attention机制。



【在 C*****l 的大作中提到】
: 10年之内能参悟出机器视觉的真谛么,话说神经科学太不给力,为啥连最简单的生物的
: 神经网络机制都搞不明白。

相关主题
请ML大神给点启发有没有谁做 text mining 的?
马工能转数据分析师吗?深度学习真正有实用价值的应用
哪个框架最适合快速开发手机app后台的web service?运算量比较请教关于OpenNLP 和 Stanford NLP 选择
进入Programming版参与讨论
x****u
发帖数: 44466
11
机制能搞明白,权值不知道啊

【在 C*****l 的大作中提到】
: 10年之内能参悟出机器视觉的真谛么,话说神经科学太不给力,为啥连最简单的生物的
: 神经网络机制都搞不明白。

x****u
发帖数: 44466
12
我觉得attention之类都是trick,将来很有可能换成更与时俱进的
这篇文章是在训练方法很有创新的,现在一般研究都集中在模型本身和优化手段上,但
个世界未必所有问题都可以通过模型加训练集搞定

【在 C*****l 的大作中提到】
: 这个idea不难想到,这篇文章最大的贡献是调出来了参数,使用了一些最近才出现的技
: 术,比如attention机制。

c*******v
发帖数: 2599
13
semi learning都用无label数据的。
甲骨文一点点翻译出来其实就是这个过程。先开始只有几个明显的字认识。
早先我把knn找了个办法改一改数据。问wdong有没人这样干过。
是wdong告诉我semi supervised learning这个术语。
我一查最早的semi learning之一还是语言学家发明的。

【在 x****u 的大作中提到】
: 我觉得attention之类都是trick,将来很有可能换成更与时俱进的
: 这篇文章是在训练方法很有创新的,现在一般研究都集中在模型本身和优化手段上,但
: 个世界未必所有问题都可以通过模型加训练集搞定

C*****l
发帖数: 1
14
能调出参才是王道,这些技术层面的东西也很重要,否则光开脑洞没用

【在 x****u 的大作中提到】
: 我觉得attention之类都是trick,将来很有可能换成更与时俱进的
: 这篇文章是在训练方法很有创新的,现在一般研究都集中在模型本身和优化手段上,但
: 个世界未必所有问题都可以通过模型加训练集搞定

g*******u
发帖数: 3948
15
值得读一下吗
实用性可有?
最后一个作者是个大牛。以前搞什么马尔可夫场的好像是

【在 C*****l 的大作中提到】
: self supervised learning指的是不依靠外部的label,依靠data之间内在的联系来
: train。
: https://arxiv.org/pdf/1803.07728.pdf
: 这篇文章的idea很简单,就是把图像转0, 90,180,270,然后train一个model to
: predict旋转的角度。用这个task train一个feature extraction network。 为了准确
: predict角度,这个model自动就学会了像supervise learning类似的feature。 作者用
: 生成的feature继续train 一个classifier可以获得和监督学习相当的STOA的结果。
: 还有一个最近的文章
: https://sites.google.com/view/space-project-page
: 通过看video可以学习object-oriented的表象。

g****t
发帖数: 31659
16
我也想问。其实我都没看懂他怎么把无监督预测,嫁接到classfier的。
假设每个img有4个像素,abcd. 训练集合
200个图。其中10个有label。label是0,1两类。
再假设完成了一个预测旋转角度的预测器。
对任意(a,b,c,d)四像素,可以输出一个角度。
[这是文章的主要成果]
但是,然后步骤是什么?怎么对一个测试图,分出来0,1两类。这步我不明白。


: 值得读一下吗

: 实用性可有?

: 最后一个作者是个大牛。以前搞什么马尔可夫场的好像是



【在 g*******u 的大作中提到】
: 值得读一下吗
: 实用性可有?
: 最后一个作者是个大牛。以前搞什么马尔可夫场的好像是

C*****l
发帖数: 1
17
有150多次引用,应该还是比较solid的把。 文中没有细说,但是他有code,嫁接是
transfer learning很standard的技巧,就是把无监督的网络中间一些或全部layer的结
果拿出来,把weight lock住,然后再接上少量几层classifier,再用labeled data
train一下。
我把open review的链接也找出来了
https://openreview.net/forum?id=S1v4N2l0-

【在 g****t 的大作中提到】
: 我也想问。其实我都没看懂他怎么把无监督预测,嫁接到classfier的。
: 假设每个img有4个像素,abcd. 训练集合
: 200个图。其中10个有label。label是0,1两类。
: 再假设完成了一个预测旋转角度的预测器。
: 对任意(a,b,c,d)四像素,可以输出一个角度。
: [这是文章的主要成果]
: 但是,然后步骤是什么?怎么对一个测试图,分出来0,1两类。这步我不明白。
:
:
: 值得读一下吗
:
: 实用性可有?

g****t
发帖数: 31659
18
嫁接的这步不理解。不理解其合理性何在。不明觉厉。


: 有150多次引用,应该还是比较solid的把。 文中没有细说,但是他有code,嫁
接是

: transfer learning很standard的技巧,就是把无监督的网络中间一些或全部
layer的结

: 果拿出来,把weight lock住,然后再接上少量几层classifier,再用labeled
data

: train一下。

: 我把open review的链接也找出来了

: https://openreview.net/forum?id=S1v4N2l0-



【在 C*****l 的大作中提到】
: 有150多次引用,应该还是比较solid的把。 文中没有细说,但是他有code,嫁接是
: transfer learning很standard的技巧,就是把无监督的网络中间一些或全部layer的结
: 果拿出来,把weight lock住,然后再接上少量几层classifier,再用labeled data
: train一下。
: 我把open review的链接也找出来了
: https://openreview.net/forum?id=S1v4N2l0-

C*****l
发帖数: 1
19
classification是另外一个task,需要label,但是前面无监督学习得到的feature和
representation有用

【在 g****t 的大作中提到】
: 我也想问。其实我都没看懂他怎么把无监督预测,嫁接到classfier的。
: 假设每个img有4个像素,abcd. 训练集合
: 200个图。其中10个有label。label是0,1两类。
: 再假设完成了一个预测旋转角度的预测器。
: 对任意(a,b,c,d)四像素,可以输出一个角度。
: [这是文章的主要成果]
: 但是,然后步骤是什么?怎么对一个测试图,分出来0,1两类。这步我不明白。
:
:
: 值得读一下吗
:
: 实用性可有?

g****t
发帖数: 31659
20
他把前面一个角度预测任务的feature 弄过来,weight lock。
然后后面接上少量几层,用少量的label数据,只训练这少量的几层?
我怕这个技术太specific。根据我的个人经验,我怀疑这个技术只能用在图形上。最简
单的linear regression任务,这样操作一下,结果可能不会好。


: classification是另外一个task,需要label,但是前面无监督学习得到的
feature和

: representation有用



【在 C*****l 的大作中提到】
: classification是另外一个task,需要label,但是前面无监督学习得到的feature和
: representation有用

相关主题
deep learning做embeded system,业界动态或者公司[合集] 解一道 GOOGLE 面试题 ... (转载)
stl的map可以嵌套几层?[合集] 问2个微软电话面试题目
解一道 GOOGLE 面试题 ...[合集] 抛砖引玉-又一道M$面试题的解法... (转载)
进入Programming版参与讨论
C*****l
发帖数: 1
21
对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说NLP里面的word
embedding model train出来,可以做翻译之类的。 如果这些feature本身是很general
的对后面任务就很有用。

【在 g****t 的大作中提到】
: 他把前面一个角度预测任务的feature 弄过来,weight lock。
: 然后后面接上少量几层,用少量的label数据,只训练这少量的几层?
: 我怕这个技术太specific。根据我的个人经验,我怀疑这个技术只能用在图形上。最简
: 单的linear regression任务,这样操作一下,结果可能不会好。
:
:
: classification是另外一个task,需要label,但是前面无监督学习得到的
: feature和
:
: representation有用
:

g****t
发帖数: 31659
22
那这文章背后的直觉似乎是:
决定一个图的名字(或者lable last)的那部分像素,和决定一个图的上下方向的那部
分像素,有极大的重叠。
这个很可能是对的。例如图中一鸟。除鸟之外的背景,对旋转角度贡献较小。就是说图
的背景一般都是立方体类似的,不贡献于90度旋转。
我看了下现在的房间。除了人,几乎都是矩形的。所以选择识别对旋转贡献多的那块像
素,约等于是选择了人那块像素。


: 对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说
NLP里面
的word

: embedding model train出来,可以做翻译之类的。 如果这些feature本
身是很
general

: 的对后面任务就很有用。



【在 C*****l 的大作中提到】
: 对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说NLP里面的word
: embedding model train出来,可以做翻译之类的。 如果这些feature本身是很general
: 的对后面任务就很有用。

C*****l
发帖数: 1
23
我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以Learn出来
object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置信息。我再观
察显示屏,又可以看出边框和液晶玻璃,人能够知道这些high level信息,并不是关注
像素。 机器视觉要robust,必须要能够抽象出来object,而且可以cross-image match
,比如知道在两个不同的image里面看到的是同一东西。

叠。

【在 g****t 的大作中提到】
: 那这文章背后的直觉似乎是:
: 决定一个图的名字(或者lable last)的那部分像素,和决定一个图的上下方向的那部
: 分像素,有极大的重叠。
: 这个很可能是对的。例如图中一鸟。除鸟之外的背景,对旋转角度贡献较小。就是说图
: 的背景一般都是立方体类似的,不贡献于90度旋转。
: 我看了下现在的房间。除了人,几乎都是矩形的。所以选择识别对旋转贡献多的那块像
: 素,约等于是选择了人那块像素。
:
:
: 对,就是这样。这个是pre-training,这个技巧本身用的很多,比方说
: NLP里面

g****t
发帖数: 31659
24
我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测无贡献。
所以训练好一个旋转任务,等于把图里的人挑出来。
也许imagnet, CIFAR10里面图的名字(label),真的是主要由
对180旋转敏感的对象决定的。
回头我找儿子做下看图给名字的实验看下。


: 我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以
Learn出来

: object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置
信息。
我再观

: 察显示屏,又可以看出边框和液晶玻璃,人能够知道这些high level信息
,并不
是关注

: 像素。 机器视觉要robust,必须要能够抽象出来object,而且可以cross
-image
match

: ,比如知道在两个不同的image里面看到的是同一东西。

: 叠。



【在 C*****l 的大作中提到】
: 我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以Learn出来
: object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置信息。我再观
: 察显示屏,又可以看出边框和液晶玻璃,人能够知道这些high level信息,并不是关注
: 像素。 机器视觉要robust,必须要能够抽象出来object,而且可以cross-image match
: ,比如知道在两个不同的image里面看到的是同一东西。
:
: 叠。

g****t
发帖数: 31659
25
我猜180旋转的无监督学习,对性能贡献最大。


: 我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测
无贡献。

: 所以训练好一个旋转任务,等于把图里的人挑出来。

: 也许imagnet, CIFAR10里面图的名字(label),真的是主要由

: 对180旋转敏感的对象决定的。

: 回头我找儿子做下看图给名字的实验看下。

:

【在 g****t 的大作中提到】
: 我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测无贡献。
: 所以训练好一个旋转任务,等于把图里的人挑出来。
: 也许imagnet, CIFAR10里面图的名字(label),真的是主要由
: 对180旋转敏感的对象决定的。
: 回头我找儿子做下看图给名字的实验看下。
:
:
: 我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以
: Learn出来
:
: object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置
: 信息。

x****u
发帖数: 44466
26
这就是为什么有人怀疑现在大部分埃及古文字都来自于十八世纪艺术家的原因
因为不符合数学规律,正常情况下应该是用语言学推导,而不是发现一块什么罗塞塔石
刻豁然开朗

【在 c*******v 的大作中提到】
: semi learning都用无label数据的。
: 甲骨文一点点翻译出来其实就是这个过程。先开始只有几个明显的字认识。
: 早先我把knn找了个办法改一改数据。问wdong有没人这样干过。
: 是wdong告诉我semi supervised learning这个术语。
: 我一查最早的semi learning之一还是语言学家发明的。

x****u
发帖数: 44466
27
不一定非要打过xxx的话就不难,不造个大新闻这个发现也有意义

【在 C*****l 的大作中提到】
: 能调出参才是王道,这些技术层面的东西也很重要,否则光开脑洞没用
x****u
发帖数: 44466
28
人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要
信息
如果训练集来自于监视摄像头,这个技术未必好用

献。
可以

【在 g****t 的大作中提到】
: 我看了下我这个房间。除了我老婆,其他东西都是矩形的。矩形对180度的预测无贡献。
: 所以训练好一个旋转任务,等于把图里的人挑出来。
: 也许imagnet, CIFAR10里面图的名字(label),真的是主要由
: 对180旋转敏感的对象决定的。
: 回头我找儿子做下看图给名字的实验看下。
:
:
: 我更愿意相信是提取了高于像素的抽象信息,前面贴的第二个文章就是可以
: Learn出来
:
: object,我们人看到一个照片,我们会知道我前面是个显示屏,大小位置
: 信息。

l*******m
发帖数: 1096
29
主要是预测四个角度问题太简单了,所以features学的不是太好

【在 x****u 的大作中提到】
: 人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要
: 信息
: 如果训练集来自于监视摄像头,这个技术未必好用
:
: 献。
: 可以

C*****l
发帖数: 1
30
imagenet的图像种类应该很广泛

【在 x****u 的大作中提到】
: 人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要
: 信息
: 如果训练集来自于监视摄像头,这个技术未必好用
:
: 献。
: 可以

相关主题
[合集] 给定一个最小堆,如何查找某数是否存在此堆中?guvest听我一言
[合集] 问个图的问题胡扯几句什么叫Deep Learning入门
NLP是使用什么技术或框架实现的?Pytorch靠谱吗?
进入Programming版参与讨论
g****t
发帖数: 31659
31
这有点言之过早。细节也很重要的。前面解释的是作者动机。
也许classfiy错的那些,没有表现出“无方向性”这一特点呢?那就说明起
作用的不全是旋转这一operator .
再也许旋转operator他这套东西只能在他自己特定的网络上接的好。这都有可能。


: 不一定非要打过xxx的话就不难,不造个大新闻这个发现也有意义



【在 x****u 的大作中提到】
: 人拍的照片,一般来说主体都是符合人脑子里已知形象的位置和角度的,这个就是重要
: 信息
: 如果训练集来自于监视摄像头,这个技术未必好用
:
: 献。
: 可以

x****u
发帖数: 44466
32
这玩意如果是真的,获取机器驾驶的大数据只要戴个google glass开车乱转就行,不需
要花钱标记图片上有什么东西。数据量接近无限,成本趋向于0

【在 g****t 的大作中提到】
: 这有点言之过早。细节也很重要的。前面解释的是作者动机。
: 也许classfiy错的那些,没有表现出“无方向性”这一特点呢?那就说明起
: 作用的不全是旋转这一operator .
: 再也许旋转operator他这套东西只能在他自己特定的网络上接的好。这都有可能。
:
:
: 不一定非要打过xxx的话就不难,不造个大新闻这个发现也有意义
:

C*****l
发帖数: 1
33
差远了,自动驾驶需要输出大量structured data,而且是移动情况下的3d场景,这个
研究也就是万里长征第一步。 要能从视频中学习robust 3d representation,那直接
可以拿个Turing Award。

【在 x****u 的大作中提到】
: 这玩意如果是真的,获取机器驾驶的大数据只要戴个google glass开车乱转就行,不需
: 要花钱标记图片上有什么东西。数据量接近无限,成本趋向于0

x****u
发帖数: 44466
34
这是假设不存在的问题来解决
人类中有很大比例根本没有3D立体感,这类人一样可以开车上街

不需

【在 C*****l 的大作中提到】
: 差远了,自动驾驶需要输出大量structured data,而且是移动情况下的3d场景,这个
: 研究也就是万里长征第一步。 要能从视频中学习robust 3d representation,那直接
: 可以拿个Turing Award。

1 (共1页)
进入Programming版参与讨论
相关主题
[合集] 问2个微软电话面试题目廖方舟 李哲 金奖! (转载)
[合集] 抛砖引玉-又一道M$面试题的解法... (转载)[bssd]wdong,lightroom....来猜个东西
[合集] 给定一个最小堆,如何查找某数是否存在此堆中?请ML大神给点启发
[合集] 问个图的问题马工能转数据分析师吗?
NLP是使用什么技术或框架实现的?哪个框架最适合快速开发手机app后台的web service?运算量比较
guvest听我一言有没有谁做 text mining 的?
胡扯几句什么叫Deep Learning入门深度学习真正有实用价值的应用
Pytorch靠谱吗?请教关于OpenNLP 和 Stanford NLP 选择
相关话题的讨论汇总
话题: br话题: learning话题: 视觉话题: 旋转话题: train