k****z 发帖数: 1863 | 1 自己想的
比方我人为产生一个数据
有10000个sample, 100个变量X1,X2,,,X100
sample分成5个classes, 是根据其中10个变量的的方程值的分布分成5分
比方说一个简单的方程
Y=X1+X6*X20/X30-X38+10*X44^2+X55/X66-10X77+x88
当然我不会告诉你,现在的ML算法能搞清楚这个classification吗? |
l******n 发帖数: 9344 | 2 你这种方程的分类,只要不是重叠太多,结果可以很精确
【在 k****z 的大作中提到】 : 自己想的 : 比方我人为产生一个数据 : 有10000个sample, 100个变量X1,X2,,,X100 : sample分成5个classes, 是根据其中10个变量的的方程值的分布分成5分 : 比方说一个简单的方程 : Y=X1+X6*X20/X30-X38+10*X44^2+X55/X66-10X77+x88 : 当然我不会告诉你,现在的ML算法能搞清楚这个classification吗?
|
k****z 发帖数: 1863 | 3 我不会告诉你方程的
什么算法可以搞定?
【在 l******n 的大作中提到】 : 你这种方程的分类,只要不是重叠太多,结果可以很精确
|
k****z 发帖数: 1863 | 4 重叠在产生数据的时候可以人为的的从数据中减少
【在 l******n 的大作中提到】 : 你这种方程的分类,只要不是重叠太多,结果可以很精确
|
M********0 发帖数: 1230 | 5 单纯的做分类 就像楼上大牛所说 准确度可以训练的很高
但是要想逼近真实分布 就要用GAN或者VAE了 10k数据太小了 而且结果如何是未知的
【在 k****z 的大作中提到】 : 重叠在产生数据的时候可以人为的的从数据中减少
|
k****z 发帖数: 1863 | 6 都是大牛
要学习学习
【在 M********0 的大作中提到】 : 单纯的做分类 就像楼上大牛所说 准确度可以训练的很高 : 但是要想逼近真实分布 就要用GAN或者VAE了 10k数据太小了 而且结果如何是未知的
|
k****z 发帖数: 1863 | 7 我想这个是因为现实中可能有这样的数据,人类收集的数据和最后想观测的之间的关系
可能错综复杂,比这个方程复杂的多,比方生物数据和疾病表型关系,如果ML能搞清楚
这个,确实很有用 |
g****t 发帖数: 31659 | 8 他这个方程有问题。问题本身可以是not detectable的。
就是说不同的变量组合,可以产生完全一样的观测量。所以你从观测量无法决定驱动变
量的值。
例如X6*X20/X30 这里的三个数从y的测量值是无法区分的。
: 你这种方程的分类,只要不是重叠太多,结果可以很精确
【在 l******n 的大作中提到】 : 你这种方程的分类,只要不是重叠太多,结果可以很精确
|
g****t 发帖数: 31659 | 9 你们把问题想的太简单了。假如他给你的是股市数据。你赚个钱实验下。例如把把股票
分成涨跌两类实验下。
首先要测算他的数据质量。还有数据产生的原理(不精确不要紧)。
: 单纯的做分类 就像楼上大牛所说 准确度可以训练的很高
: 但是要想逼近真实分布 就要用GAN或者VAE了 10k数据太小了 而且结果如
何是未
知的
【在 M********0 的大作中提到】 : 单纯的做分类 就像楼上大牛所说 准确度可以训练的很高 : 但是要想逼近真实分布 就要用GAN或者VAE了 10k数据太小了 而且结果如何是未知的
|
x****u 发帖数: 44466 | 10 你研究的这玩意是200年前高斯就想过,并且写入大学教科书里的
【在 k****z 的大作中提到】 : 自己想的 : 比方我人为产生一个数据 : 有10000个sample, 100个变量X1,X2,,,X100 : sample分成5个classes, 是根据其中10个变量的的方程值的分布分成5分 : 比方说一个简单的方程 : Y=X1+X6*X20/X30-X38+10*X44^2+X55/X66-10X77+x88 : 当然我不会告诉你,现在的ML算法能搞清楚这个classification吗?
|
|
|
k****z 发帖数: 1863 | 11 什么定理,我怎么不记得
【在 x****u 的大作中提到】 : 你研究的这玩意是200年前高斯就想过,并且写入大学教科书里的
|
r****t 发帖数: 10904 | 12 靠谱。要是这个这么简单,很多生物问题就不是问题了。
【在 g****t 的大作中提到】 : 他这个方程有问题。问题本身可以是not detectable的。 : 就是说不同的变量组合,可以产生完全一样的观测量。所以你从观测量无法决定驱动变 : 量的值。 : 例如X6*X20/X30 这里的三个数从y的测量值是无法区分的。 : : : 你这种方程的分类,只要不是重叠太多,结果可以很精确 :
|
k****z 发帖数: 1863 | 13 不赞同你的说法,不是not detectable, 而是还没有人想出好的方法。退一步讲,如果
你能找出其他变量的组合方程给出同样的分类,那也很好,就是说有多组解,其实这样
更有意思,但多组解的可能性应该很小,即使有,也会有效率差异。归根结底还是没有
好的方法。可能超越了人类目前理论和计算的能力。
: 他这个方程有问题。问题本身可以是not detectable的。
: 就是说不同的变量组合,可以产生完全一样的观测量。所以你从观测量无法决定
驱动变
: 量的值。
: 例如X6*X20/X30 这里的三个数从y的测量值是无法区分的。
:
【在 g****t 的大作中提到】 : 你们把问题想的太简单了。假如他给你的是股市数据。你赚个钱实验下。例如把把股票 : 分成涨跌两类实验下。 : 首先要测算他的数据质量。还有数据产生的原理(不精确不要紧)。 : : : 单纯的做分类 就像楼上大牛所说 准确度可以训练的很高 : : 但是要想逼近真实分布 就要用GAN或者VAE了 10k数据太小了 而且结果如 : 何是未 : 知的 :
|
l******n 发帖数: 9344 | 14 只要区别y得值,和你怎么产生的没有关系
【在 g****t 的大作中提到】 : 他这个方程有问题。问题本身可以是not detectable的。 : 就是说不同的变量组合,可以产生完全一样的观测量。所以你从观测量无法决定驱动变 : 量的值。 : 例如X6*X20/X30 这里的三个数从y的测量值是无法区分的。 : : : 你这种方程的分类,只要不是重叠太多,结果可以很精确 :
|
g****t 发帖数: 31659 | 15 如果只要求根据y的值分类,而和x无关系的话。那可以说是没什么标准可言的。排一下
序然后,分五段就是分类了。
哪里有什么精度高低之分呢?
他既然给了方程,那这种就是已知道模型的分类问题。
我猜需要在什么地方用到那些x才能搞明白分类好坏的问题。
然而他的x是不可观测的。
: 只要区别y得值,和你怎么产生的没有关系
【在 l******n 的大作中提到】 : 只要区别y得值,和你怎么产生的没有关系
|
g****t 发帖数: 31659 | 16 你需要一些逻辑训练。不然无法定义问题的。
这里不需要考虑到人类有没有找到好办法这么宏观。
: 不赞同你的说法,不是not detectable, 而是还没有人想出好的方法。退一步讲
,如果
: 你能找出其他变量的组合方程给出同样的分类,那也很好,就是说有多组解,其
实这样
: 更有意思,但多组解的可能性应该很小,即使有,也会有效率差异。归根结底还
是没有
: 好的方法。可能超越了人类目前理论和计算的能力。
: 驱动变
【在 k****z 的大作中提到】 : 不赞同你的说法,不是not detectable, 而是还没有人想出好的方法。退一步讲,如果 : 你能找出其他变量的组合方程给出同样的分类,那也很好,就是说有多组解,其实这样 : 更有意思,但多组解的可能性应该很小,即使有,也会有效率差异。归根结底还是没有 : 好的方法。可能超越了人类目前理论和计算的能力。 : : : 他这个方程有问题。问题本身可以是not detectable的。 : : 就是说不同的变量组合,可以产生完全一样的观测量。所以你从观测量无法决定 : 驱动变 : : 量的值。 : : 例如X6*X20/X30 这里的三个数从y的测量值是无法区分的。
|
g****t 发帖数: 31659 | 17 你跟他二人,似乎都没有操作过基本的linear regression
: 你研究的这玩意是200年前高斯就想过,并且写入大学教科书里的
【在 x****u 的大作中提到】 : 你研究的这玩意是200年前高斯就想过,并且写入大学教科书里的
|
s*****V 发帖数: 21731 | 18 你这个要加上一个label,这就是一个典型的LINEAR regression CLASSIFICATION 的题
目.每一个方程的值对应于一个超平面,数据量够大的话应该没啥问题。
【在 k****z 的大作中提到】 : 自己想的 : 比方我人为产生一个数据 : 有10000个sample, 100个变量X1,X2,,,X100 : sample分成5个classes, 是根据其中10个变量的的方程值的分布分成5分 : 比方说一个简单的方程 : Y=X1+X6*X20/X30-X38+10*X44^2+X55/X66-10X77+x88 : 当然我不会告诉你,现在的ML算法能搞清楚这个classification吗?
|
g****t 发帖数: 31659 | 19 假如他要是让你根据X44的大小分五类,
你怎么分?
按照他这个产生器,X44的正负是从y看不出来的。
你用软件现成的包带进去,根据测量数据是
可以出现一个结果。然而那结果
是测量噪声给你的假结果。
: 你这个要加上一个label,这就是一个典型的LINEAR regression
CLASSIFICATION 的题
: 目.每一个方程的值对应于一个超平面,数据量够大的话应该没啥问题。
【在 s*****V 的大作中提到】 : 你这个要加上一个label,这就是一个典型的LINEAR regression CLASSIFICATION 的题 : 目.每一个方程的值对应于一个超平面,数据量够大的话应该没啥问题。
|
s*****V 发帖数: 21731 | 20 只要不是乱来,只要是根据Y的值范围来分,就可以分。换句话说如果他给100个x,和y
,神经网络可以模拟出这个函数,最后一层加一个分类器。前提是数据够多。
【在 g****t 的大作中提到】 : 假如他要是让你根据X44的大小分五类, : 你怎么分? : 按照他这个产生器,X44的正负是从y看不出来的。 : 你用软件现成的包带进去,根据测量数据是 : 可以出现一个结果。然而那结果 : 是测量噪声给你的假结果。 : : : 你这个要加上一个label,这就是一个典型的LINEAR regression : CLASSIFICATION 的题 : : 目.每一个方程的值对应于一个超平面,数据量够大的话应该没啥问题。
|
k****z 发帖数: 1863 | 21 觉得第一肯定是可以分类的,但现在没有好的方法。神经网络或许可以。
第二linear regression 之类的不会work, 因为实际问题中变量和方程是不会告诉你的。
: 只要不是乱来,只要是根据Y的值范围来分,就可以分。换句话说如果他给100个
x,和y
: ,神经网络可以模拟出这个函数,最后一层加一个分类器。前提是数据够多。
【在 s*****V 的大作中提到】 : 只要不是乱来,只要是根据Y的值范围来分,就可以分。换句话说如果他给100个x,和y : ,神经网络可以模拟出这个函数,最后一层加一个分类器。前提是数据够多。
|