l******x 发帖数: 1 | 1 我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方
法好些,就整理了一下,放在这里
https://github.com/lixilinx/TriNet4PdfEst
https://arxiv.org/pdf/2004.14593.pdf
感觉做这种hardcore的density estimation不是很流行,不知道本版有没有人做,大部
分都是像GAN,variational autoencoder这些绕着走的方法。 |
g****t 发帖数: 31659 | 2 Thanks for sharing.
[1]I would like to provide a ref paper for these type of universal estimator
theorems (which is stated in the standard functional Epilson-N language ).
https://stats.stackexchange.com/questions/376275/is-there-a-universal-
approximation-theorem-for-monotone-functions
[2] Two additional questions:
(i)
Had you tried to apply the triangle structured mono neural network to
Imagnet?
https://dawn.cs.stanford.edu/benchmark/ImageNet/train.html
(ii)
As I remembered, previously, you shared some work on the pre-condition
matrix training approach. Is there any reason that prevents you from
applying
the your previous pre-condition training method? Any thoughts?
【在 l******x 的大作中提到】 : 我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方 : 法好些,就整理了一下,放在这里 : https://github.com/lixilinx/TriNet4PdfEst : https://arxiv.org/pdf/2004.14593.pdf : 感觉做这种hardcore的density estimation不是很流行,不知道本版有没有人做,大部 : 分都是像GAN,variational autoencoder这些绕着走的方法。
|
x****u 发帖数: 44466 | 3 友提:看懂人家写的什么再评论。。。
estimator
【在 g****t 的大作中提到】 : Thanks for sharing. : [1]I would like to provide a ref paper for these type of universal estimator : theorems (which is stated in the standard functional Epilson-N language ). : https://stats.stackexchange.com/questions/376275/is-there-a-universal- : approximation-theorem-for-monotone-functions : [2] Two additional questions: : (i) : Had you tried to apply the triangle structured mono neural network to : Imagnet? : https://dawn.cs.stanford.edu/benchmark/ImageNet/train.html
|
l******x 发帖数: 1 | 4 Thanks。 看了下Monotone and Partially Monotone Neural Networks的paper,他们
要求所有的系数都是正的,这个约束也太强了。而且即便按照他们的定义,不管input
的维数多大,一个hidden layer应该就够了。
例如input是3维的:x1, x2, x3。按照我定义的monotonic network unit,输出y1, y2
, y3分别对x1, x2, x3单调,这样和y1+y2+y3便是满足那片paper里定义的一个单调标
量函数。这样不管input维数多大,一个hidden layer即可。 |
l******x 发帖数: 1 | 5 如果不让那个monotonic network unit里面的参数以某种方式公用,到imagenet这个维
数memory很快就爆了。怎么公用最有效我也不知道,最后大概会扯到CNN上。
为了节省memory,我把不同含义的参数放在一个矩阵里,因此那种preconditioner没有
意义了。由于memory消耗过大,neural autoregressive flow从来没有处理过100维以
上的density estimation问题;我的方法也只能处理到几千维的density estimation,
再往上大概也很难,memory footprint太大(即便是高斯混合模型,存几个那么大的
covariance matrices就不得了)。 |
l*******m 发帖数: 1096 | 6 很牛。不过你应该看一下有很多基于normalizing flow的文章。我似乎记得cifar可以
做到3左右
:我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方
:法好些,就整理了一下,放在这里 |
l******x 发帖数: 1 | 7 在universal density estimator这类里,TAN是我知道的做比较好的,cifar上3.98。
我所知道的比较有限。不知道有没有更好的。
当然,如果只局限于image,会比这个好很多,用CNN应该不难做到3.4。我的方法在训
练集上也可以接近这个number,只是参数太多,overfit了,test集上performance就下
来了。 |
g****t 发帖数: 31659 | 8 我没ieee账号。看不了那个文章。不过那个结论我有印象。他的定理是否可以直接推论
出你的这个网络是universal estimator ?
你的命题有些命题的given条件似乎写成了assumptions。不是太容易严格理清。
: Thanks。 看了下Monotone and Partially Monotone Neural Networks的
paper
,他们
: 要求所有的系数都是正的,这个约束也太强了。而且即便按照他们的定义
,不管
input
: 的维数多大,一个hidden layer应该就够了。
: 例如input是3维的:x1, x2, x3。按照我定义的monotonic network unit
,输出
y1, y2
: , y3分别对x1, x2, x3单调,这样和y1 y2 y3便是满足那片paper里定义
的一个
单调标
: 量函数。这样不管input维数多大,一个hidden layer即可。
【在 l******x 的大作中提到】 : 在universal density estimator这类里,TAN是我知道的做比较好的,cifar上3.98。 : 我所知道的比较有限。不知道有没有更好的。 : 当然,如果只局限于image,会比这个好很多,用CNN应该不难做到3.4。我的方法在训 : 练集上也可以接近这个number,只是参数太多,overfit了,test集上performance就下 : 来了。
|
g****t 发帖数: 31659 | 9 就是说你之前提到的那种二阶法,因为实现上数组的安排不一样,所以用不上?我理解
的正确吗?
我比较关心二阶法。
: 如果不让那个monotonic network unit里面的参数以某种方式公用,到imagenet
这个维
: 数memory很快就爆了。怎么公用最有效我也不知道,最后大概会扯到CNN上。
: 为了节省memory,我把不同含义的参数放在一个矩阵里,因此那种
preconditioner没有
: 意义了。由于memory消耗过大,neural autoregressive flow从来没有处理过
100维以
: 上的density estimation问题;我的方法也只能处理到几千维的density
estimation,
: 再往上大概也很难,memory footprint太大(即便是高斯混合模型,存几个那么
大的
: covariance matrices就不得了)。
【在 l******x 的大作中提到】 : 在universal density estimator这类里,TAN是我知道的做比较好的,cifar上3.98。 : 我所知道的比较有限。不知道有没有更好的。 : 当然,如果只局限于image,会比这个好很多,用CNN应该不难做到3.4。我的方法在训 : 练集上也可以接近这个number,只是参数太多,overfit了,test集上performance就下 : 来了。
|
g****t 发帖数: 31659 | 10 现在density estimator或者类似的思路还是做不了imagnet?
都是到cifar 10这个规模?这是我最关心的问题。
: 很牛。不过你应该看一下有很多基于normalizing flow的文章。我似乎记得
cifar可以
: 做到3左右
: :我自己主要用来做speech modeling的。在mnist, cifar上测了一下,
应该比
现在的方
: :法好些,就整理了一下,放在这里
【在 l*******m 的大作中提到】 : 很牛。不过你应该看一下有很多基于normalizing flow的文章。我似乎记得cifar可以 : 做到3左右 : : :我自己主要用来做speech modeling的。在mnist, cifar上测了一下,应该比现在的方 : :法好些,就整理了一下,放在这里
|
|
|
g****t 发帖数: 31659 | 11 你继续蹲地上吐吐沫去。楼主跟我一个专业的。
【在 x****u 的大作中提到】 : 友提:看懂人家写的什么再评论。。。 : : estimator
|
l******x 发帖数: 1 | 12 大概是推不出来。那个要求除了bias外都是正的系数,而且网络的depth至少和输入的
维数一样多,这个太过了。cifar就需要3*32*32=3072层!最后出来的还是标量。
是的,数组这么排的话那些sparse preconditioner用不了。而且memory这么紧张,算
Hessian-vector product还需要额外的memory开销,这大概不是个好方向。
imagenet这么搞肯定不行,维数到了3*224*224,存一个covariance matrix就需要1e10
这个量级的memory!最简单的方法就是像variational audoencoder那样,用CNN
encoder将image转到一个低维的latent space里来估计一个它的relative entropy的
bound。大部分有特定format的数据都可以这样做,比如sentence,用一个RNN-encoder
转到latent space里,这时便可用universal的density estimator. |
x****u 发帖数: 44466 | 13 你问先自行搜一下答案会死?
【在 g****t 的大作中提到】 : 你继续蹲地上吐吐沫去。楼主跟我一个专业的。
|
g****t 发帖数: 31659 | 14 density估计出来后,可以做监督学习吧?准确率CIFAR你感觉能有多少?
我用chebyshev多项式估计density,在我laptop上性能稳定。准确率差CNN很多。
1e10
encoder
【在 l******x 的大作中提到】 : 大概是推不出来。那个要求除了bias外都是正的系数,而且网络的depth至少和输入的 : 维数一样多,这个太过了。cifar就需要3*32*32=3072层!最后出来的还是标量。 : 是的,数组这么排的话那些sparse preconditioner用不了。而且memory这么紧张,算 : Hessian-vector product还需要额外的memory开销,这大概不是个好方向。 : imagenet这么搞肯定不行,维数到了3*224*224,存一个covariance matrix就需要1e10 : 这个量级的memory!最简单的方法就是像variational audoencoder那样,用CNN : encoder将image转到一个低维的latent space里来估计一个它的relative entropy的 : bound。大部分有特定format的数据都可以这样做,比如sentence,用一个RNN-encoder : 转到latent space里,这时便可用universal的density estimator.
|
l******x 发帖数: 1 | 15 对于unsupervised learning, conditional density可能比较有用些,可以帮助找到些
有用的feature。
对于p(x|y),monotonic unit里的bias换成y的函数便可学习到conditional density。
这可能比现在流行的mutual information找feature要better conditioned。Mutual
information估计can be ill-conditioned,但mutual information的梯度和
conditional density的梯度是一个东西:
I(x,y) = E[log( p(x,y)/p(x)/p(y) )] = E[log p(x|y)] - E[log p(x)]
这里E[log p(x)]是一个常数。因此对于unsupervised learning来讲,conditional
density可能有些意义。 |
x****u 发帖数: 44466 | 16 我只是略知一点生成模型,感觉有个大风向,数学上漂亮的结果都不漂亮,数学上和结
果上都漂亮的存在性问题又无法求解
隐约感觉这个问题深层可能与NPC相关
【在 l******x 的大作中提到】 : 对于unsupervised learning, conditional density可能比较有用些,可以帮助找到些 : 有用的feature。 : 对于p(x|y),monotonic unit里的bias换成y的函数便可学习到conditional density。 : 这可能比现在流行的mutual information找feature要better conditioned。Mutual : information估计can be ill-conditioned,但mutual information的梯度和 : conditional density的梯度是一个东西: : I(x,y) = E[log( p(x,y)/p(x)/p(y) )] = E[log p(x|y)] - E[log p(x)] : 这里E[log p(x)]是一个常数。因此对于unsupervised learning来讲,conditional : density可能有些意义。
|
l******x 发帖数: 1 | 17 由数据到density或变成Gaussian noise这个方向问题不大。density可以用来做很多事
情。
由Gaussian noise到数据这个方向大概是ill posed problem。文本语音图像这些数据
有明显的clustering的结构,在变成Gaussian noise过程中,很多cluster挨在一起,
Jacobian在那些地方上几乎都是0,因此Gaussian noise到有意义的数据这个方向很病
态。很难有elegant, complete的solution. |
c*******v 发帖数: 2599 | 18 我熟悉正交多项式方法估计density以及一些力学应用。就是你文章介绍中提到的那种
方法。所以很高兴知道其他方法的进展。再次感谢过来贴文。
在以前,ieee signal and processing其实是个sound杂志。我认为各种新的AI计算方
法在力
学方面的应用,是值得期待的。局限在视觉图片有些浪费了。
另外且不说性能好坏,力学计算软件,需要新的力量来冲击,不然几十年不进步。
我以前圈子的学术带头人去世了。不然我会找他谈谈,美国机械学会需要一
个专门阵地
,来发展神学。现在我印象里只有增刊。
: 由数据到density或变成Gaussian noise这个方向问题不大。density可以
用来做
很多事
: 情。
: 由Gaussian noise到数据这个方向大概是ill posed problem。文本语音
图像这
些数据
: 有明显的clustering的结构,在变成Gaussian noise过程中,很多
cluster挨在
一起,
: Jacobian在那些地方上几乎都是0,因此Gaussian noise到有意义的数据
这个方
向很病
: 态。很难有elegant, complete的solution.
【在 l******x 的大作中提到】 : 由数据到density或变成Gaussian noise这个方向问题不大。density可以用来做很多事 : 情。 : 由Gaussian noise到数据这个方向大概是ill posed problem。文本语音图像这些数据 : 有明显的clustering的结构,在变成Gaussian noise过程中,很多cluster挨在一起, : Jacobian在那些地方上几乎都是0,因此Gaussian noise到有意义的数据这个方向很病 : 态。很难有elegant, complete的solution.
|