请教一个machine learning的问题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 请教一个machine learning的问题

相关主题
● data mining和machine learning到底有啥区别	● 求G家PHD intern host match，方向是Machine Learning， Data Science
● 电面Bloomberg SDE/Research Scientst--Machine Learning	● Saleforce online test
● 前天电面了个奇怪的国人candidate	● 为啥CS要把regression,statistics强奸成machine learning？
● linkedin Data Scientist	● 【非绿卡贴！！】autonomous driving相关职位 (转载)
● 非CS PhD 找Machine Learning 工作求指导	● new grad 求 entry level cs 或者 machine learning 2018 inte
● 请问面试被问到 machine learning 问题时	● offer比较求指导, G和Apple
● 我也来求refer, machine learning/stats/SDE相关	● 紧急求助。刚刚收到linkedin phone interview邀请。
● Technical Yahoo, Machine Learning Engineer	● 求 data mining 统计方面的书

相关话题的讨论汇总
话题: data话题: learning话题: 1m话题: training话题: 100

进入JobHunting版参与讨论

1

(共1页)

x**y 发帖数: 1086	1 如果training data数量很少，比如100个training data，1million testing data，3 classes，data本身不复杂，是4维的离散量，该用什么方法比较合适呢？semi- supervised?
s*****n 发帖数: 5488	2 why do they use 100 training data and 1M testing data, insane? 3 【在 x**y 的大作中提到】 : 如果training data数量很少，比如100个training data，1million testing data，3 : classes，data本身不复杂，是4维的离散量，该用什么方法比较合适呢？semi- : supervised?
s****n 发帖数: 150	3 Maybe the 100 training data is labeled data, while the 1M testing data is unlabeled. 【在 s*****n 的大作中提到】 : why do they use 100 training data and 1M testing data, insane? : : 3
j******y 发帖数: 700	4 u could try active learning but 100 training size is too small comparing with 1m
x**y 发帖数: 1086	5 纯粹就是个人为设计出来的问题。算是prediction吧，比如说判断一个人健康状况，good, average,poor 有四项指标a,b,c,d 现在有1m人，label其中100个人，如何predict剩下那999900 虽然数据不复杂，但是就这么点training data，想不出用什么方法能有好结果
d****j 发帖数: 293	6 active learning http://en.wikipedia.org/wiki/Active_learning_%28machine_learning%29
x**y 发帖数: 1086	7 active learning和semi-supervised比较的话，有什么优缺点呢？
x**y 发帖数: 1086	8 还有一个问题就是说，如果没有先验知识的话，或者说单纯从data本身并不能人为得出一个确定的prediction的话，active learning还有效么？
s*****n 发帖数: 5488	9 我有点明白你说的意思了。1m的点不能被叫做test data. 回到问题的本质。现在是在4维空间里面，给你100个点，让你把这个空间划分为三个区域。区域内部的点聚合，区域外边的点距离做够大。事实上这样做的自由度太大，会有多种选择，自然也会有mis-classification. now, with testing data,(事实上，test data也是a b c d -> g/b/ 的映射，否则怎么能够test, 只用abcd四维的micro feature来进行clusting.得到k个clusters. now, mapping 100 points to k clusters with what ever means and synthese a function/model, that is your ouput. Finally, testing with 1M points with the whole mapping. 【在 x**y 的大作中提到】 : 还有一个问题就是说，如果没有先验知识的话，或者说单纯从data本身并不能人为得出 : 一个确定的prediction的话，active learning还有效么？
x**y 发帖数: 1086	10 是这个意思，具体到实际问题上，label 1m unlabeled data based on 100 labeled data,如何做？也就是说如何选取一个合适的model呢？当labeled< 还有一个时空复杂度的问题也需要考虑。【在 s*****n 的大作中提到】 : 我有点明白你说的意思了。1m的点不能被叫做test data. 回到问题的本质。 : 现在是在4维空间里面，给你100个点，让你把这个空间划分为三个区域。 : 区域内部的点聚合，区域外边的点距离做够大。事实上这样做的自由度太大，会有多种 : 选择，自然也会有mis-classification. : now, with testing data,(事实上，test data也是a b c d -> g/b/ 的映射，否则怎 : 么能够test, 只用abcd四维的micro feature来进行clusting.得到k个clusters. : now, mapping 100 points to k clusters with what ever means and synthese a : function/model, that is your ouput. : Finally, testing with 1M points with the whole mapping.
s*****n 发帖数: 5488	11 什么时空复杂度？算法吗？模型自己找吧。比如bayerisan(NN)+ kohornen中间层. 类别一下，就是有个老师能让问100道问题。你有1M的题要问，怎么办呢。先研究一下，找出k到典型问题。然后再问老师 k道题是好还是坏呢，还是有好有坏呢。 behavior (也许包括最近统计）AI 就是这么点简单道理，就是拿一堆炒烂的东西瞎搅和。【在 x**y 的大作中提到】 : 是这个意思，具体到实际问题上，label 1m unlabeled data based on 100 labeled : data,如何做？也就是说如何选取一个合适的model呢？当labeled<: 还有一个时空复杂度的问题也需要考虑。
d**e 发帖数: 6098	12 你们太牛了！ ML我上完就忘了。感觉是不是考这些才比较考能力【在 s*****n 的大作中提到】 : 什么时空复杂度？算法吗？模型自己找吧。比如bayerisan(NN)+ kohornen中间层. : 类别一下，就是有个老师能让问100道问题。你有1M的题要问，怎么办呢。先研究一下 : ，找出k到典型问题。然后再问老师 k道题是好还是坏呢，还是有好有坏呢。 : behavior (也许包括最近统计）AI 就是这么点简单道理，就是拿一堆炒烂的东西瞎搅 : 和。

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 求 data mining 统计方面的书	● 非CS PhD 找Machine Learning 工作求指导
● 请教: 申请G 家 data scientist 应该如何准备?	● 请问面试被问到 machine learning 问题时
● 做business analysis中的machine learning/data mining怎么样？	● 我也来求refer, machine learning/stats/SDE相关
● Adobe 招 Data Scientist 和 Machine Learning Scientist	● Technical Yahoo, Machine Learning Engineer
● data mining和machine learning到底有啥区别	● 求G家PHD intern host match，方向是Machine Learning， Data Science
● 电面Bloomberg SDE/Research Scientst--Machine Learning	● Saleforce online test
● 前天电面了个奇怪的国人candidate	● 为啥CS要把regression,statistics强奸成machine learning？
● linkedin Data Scientist	● 【非绿卡贴！！】autonomous driving相关职位 (转载)

相关话题的讨论汇总
话题: data话题: learning话题: 1m话题: training话题: 100

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)