x**y 发帖数: 1086 | 1 如果training data数量很少,比如100个training data,1million testing data,3
classes,data本身不复杂,是4维的离散量,该用什么方法比较合适呢?semi-
supervised? |
s*****n 发帖数: 5488 | 2 why do they use 100 training data and 1M testing data, insane?
3
【在 x**y 的大作中提到】 : 如果training data数量很少,比如100个training data,1million testing data,3 : classes,data本身不复杂,是4维的离散量,该用什么方法比较合适呢?semi- : supervised?
|
s****n 发帖数: 150 | 3 Maybe the 100 training data is labeled data, while the 1M testing data is
unlabeled.
【在 s*****n 的大作中提到】 : why do they use 100 training data and 1M testing data, insane? : : 3
|
j******y 发帖数: 700 | 4 u could try active learning
but 100 training size is too small comparing with 1m |
x**y 发帖数: 1086 | 5 纯粹就是个人为设计出来的问题。
算是prediction吧,比如说判断一个人健康状况,good, average,poor
有四项指标a,b,c,d
现在有1m人,label其中100个人,如何predict剩下那999900
虽然数据不复杂,但是就这么点training data,想不出用什么方法能有好结果 |
d****j 发帖数: 293 | |
x**y 发帖数: 1086 | 7 active learning和semi-supervised比较的话,有什么优缺点呢? |
x**y 发帖数: 1086 | 8 还有一个问题就是说,如果没有先验知识的话,或者说单纯从data本身并不能人为得出
一个确定的prediction的话,active learning还有效么? |
s*****n 发帖数: 5488 | 9 我有点明白你说的意思了。1m的点不能被叫做test data. 回到问题的本质。
现在是在4维空间里面,给你100个点,让你把这个空间划分为三个区域。
区域内部的点聚合,区域外边的点距离做够大。事实上这样做的自由度太大,会有多种
选择,自然也会有mis-classification.
now, with testing data,(事实上,test data也是a b c d -> g/b/ 的映射,否则怎
么能够test, 只用abcd四维的micro feature来进行clusting.得到k个clusters.
now, mapping 100 points to k clusters with what ever means and synthese a
function/model, that is your ouput.
Finally, testing with 1M points with the whole mapping.
【在 x**y 的大作中提到】 : 还有一个问题就是说,如果没有先验知识的话,或者说单纯从data本身并不能人为得出 : 一个确定的prediction的话,active learning还有效么?
|
x**y 发帖数: 1086 | 10 是这个意思,具体到实际问题上,label 1m unlabeled data based on 100 labeled
data,如何做?也就是说如何选取一个合适的model呢?当labeled<
还有一个时空复杂度的问题也需要考虑。
【在 s*****n 的大作中提到】 : 我有点明白你说的意思了。1m的点不能被叫做test data. 回到问题的本质。 : 现在是在4维空间里面,给你100个点,让你把这个空间划分为三个区域。 : 区域内部的点聚合,区域外边的点距离做够大。事实上这样做的自由度太大,会有多种 : 选择,自然也会有mis-classification. : now, with testing data,(事实上,test data也是a b c d -> g/b/ 的映射,否则怎 : 么能够test, 只用abcd四维的micro feature来进行clusting.得到k个clusters. : now, mapping 100 points to k clusters with what ever means and synthese a : function/model, that is your ouput. : Finally, testing with 1M points with the whole mapping.
|
s*****n 发帖数: 5488 | 11 什么时空复杂度?算法吗?模型自己找吧。比如bayerisan(NN)+ kohornen中间层.
类别一下,就是有个老师能让问100道问题。你有1M的题要问,怎么办呢。先研究一下
,找出k到典型问题。然后再问老师 k道题是好还是坏呢,还是有好有坏呢。
behavior (也许包括最近统计)AI 就是这么点简单道理,就是拿一堆炒烂的东西瞎搅
和。
【在 x**y 的大作中提到】 : 是这个意思,具体到实际问题上,label 1m unlabeled data based on 100 labeled : data,如何做?也就是说如何选取一个合适的model呢?当labeled<: 还有一个时空复杂度的问题也需要考虑。
|
d**e 发帖数: 6098 | 12 你们太牛了! ML我上完就忘了。
感觉是不是考这些才比较考能力
【在 s*****n 的大作中提到】 : 什么时空复杂度?算法吗?模型自己找吧。比如bayerisan(NN)+ kohornen中间层. : 类别一下,就是有个老师能让问100道问题。你有1M的题要问,怎么办呢。先研究一下 : ,找出k到典型问题。然后再问老师 k道题是好还是坏呢,还是有好有坏呢。 : behavior (也许包括最近统计)AI 就是这么点简单道理,就是拿一堆炒烂的东西瞎搅 : 和。
|