由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 讨论一下data mining contest的算法吧
相关主题
讨论一下统计专业出身人的职业发展吧。讨论一下:50或60岁的统计师如何找到新工作直到退休?
Re: 大家来讨论一下统计的前途吧有没有人愿意讨论一下统计学最近的研究动向啊?
这个LinkedIn该怎么用呀?我们讨论一下。说个面试题,大家讨论一下
讨论一下一个统计问题讨论一下,非独立sample的显著性比较
讨论一下Claims Data 中 Fraud Detection 的方法讨论一下 Marginal structural model 和propensity score的差异吧
讨论一下估计天上有几只鸟的问题讨论一下data science 项目
讨论一下machine learning讨论一下master在药厂的出路
on site被拒,讨论一下致命的一个问题吧大家讨论一下C++模板吧 (转载)
相关话题的讨论汇总
话题: contest话题: mining话题: 算法话题: data话题: 讨论一下
进入Statistics版参与讨论
1 (共1页)
r*****d
发帖数: 346
1
像data mining contest, 如果风格是注意细节与组合,争取最大程度利用成熟的
libraries/packages, 跟那些传说中的自己写算法相比,有立足之地吗?
g******i
发帖数: 118
2
除非是你自己develop了超牛x的新方法,不然自己写算法那是跟自己过不去吧...
o****o
发帖数: 8077
3
仔细分析数据的特征比拼算法效果好

【在 r*****d 的大作中提到】
: 像data mining contest, 如果风格是注意细节与组合,争取最大程度利用成熟的
: libraries/packages, 跟那些传说中的自己写算法相比,有立足之地吗?

T*****u
发帖数: 7103
4
纯做算法和data mining不一定一回事吧。
r*****d
发帖数: 346
5
data mining你是指把从错综复杂的databases and tables萃取features(甚至从新
design to collect new data)也算进来了吧。
做一步假设,比如kaggle contest这样, feature这一步已经由主办方给好了,一般是
一个~10G的比较clean的table. 这时候大家的起点都一样,那就是算法了。

【在 T*****u 的大作中提到】
: 纯做算法和data mining不一定一回事吧。
r*****d
发帖数: 346
6
传说中有人写C++不用STL的,像hash table神马的都自己写。

【在 g******i 的大作中提到】
: 除非是你自己develop了超牛x的新方法,不然自己写算法那是跟自己过不去吧...
r*****d
发帖数: 346
7
life is in detail and should be as simple as possible :)

【在 o****o 的大作中提到】
: 仔细分析数据的特征比拼算法效果好
o****o
发帖数: 8077
8
kaggle只能说给你整成面板了,可以容易读取而已,里面的feature还是要自己根据数
据分析的结果engineering一下,要想弄得好还是比较费时间

【在 r*****d 的大作中提到】
: data mining你是指把从错综复杂的databases and tables萃取features(甚至从新
: design to collect new data)也算进来了吧。
: 做一步假设,比如kaggle contest这样, feature这一步已经由主办方给好了,一般是
: 一个~10G的比较clean的table. 这时候大家的起点都一样,那就是算法了。

h***i
发帖数: 3844
9
太花时间。。。

【在 r*****d 的大作中提到】
: 像data mining contest, 如果风格是注意细节与组合,争取最大程度利用成熟的
: libraries/packages, 跟那些传说中的自己写算法相比,有立足之地吗?

g******i
发帖数: 118
10
原来是说kaggle contest。这个可以参考以前的netflix million dollar challenge。
总的来说,如果是学生,有时间,可以拿data 练练手,如果有收获也能往简历里面来
写写。个人或者一般集体想靠自己写程序或者用现存package赢大奖几乎是不可能的。
大奖的赢家都是ATT Bell lab, MIT 之类的组织, 硬件更是有超级计算机之类的做支撑。
不过话说回来,no dream, no gain, 如果楼主超级牛或者有强大背景的支持那是可以
一试哈
r*****d
发帖数: 346
11
组队吧。。。
2014年暑期左右?

【在 h***i 的大作中提到】
: 太花时间。。。
r*****d
发帖数: 346
12
我完全同意你说的。面板的另一个好处是features pool已经给了,engineering也是从
这个pool里面来了。

【在 o****o 的大作中提到】
: kaggle只能说给你整成面板了,可以容易读取而已,里面的feature还是要自己根据数
: 据分析的结果engineering一下,要想弄得好还是比较费时间

r*****d
发帖数: 346
13
只同意一半。有million级别的大赛也有thousand级别的。$10,000以内的比赛基本全是
个人,2-people team, 3-people team赢的。

撑。

【在 g******i 的大作中提到】
: 原来是说kaggle contest。这个可以参考以前的netflix million dollar challenge。
: 总的来说,如果是学生,有时间,可以拿data 练练手,如果有收获也能往简历里面来
: 写写。个人或者一般集体想靠自己写程序或者用现存package赢大奖几乎是不可能的。
: 大奖的赢家都是ATT Bell lab, MIT 之类的组织, 硬件更是有超级计算机之类的做支撑。
: 不过话说回来,no dream, no gain, 如果楼主超级牛或者有强大背景的支持那是可以
: 一试哈

1 (共1页)
进入Statistics版参与讨论
相关主题
大家讨论一下C++模板吧 (转载)讨论一下Claims Data 中 Fraud Detection 的方法
讨论一下为什么黄左这么喜欢冒充荣誉白人讨论一下估计天上有几只鸟的问题
有人在玩 Facebook 的黑客杯吗?讨论一下machine learning
讨论一下LCA的最好算法on site被拒,讨论一下致命的一个问题吧
讨论一下统计专业出身人的职业发展吧。讨论一下:50或60岁的统计师如何找到新工作直到退休?
Re: 大家来讨论一下统计的前途吧有没有人愿意讨论一下统计学最近的研究动向啊?
这个LinkedIn该怎么用呀?我们讨论一下。说个面试题,大家讨论一下
讨论一下一个统计问题讨论一下,非独立sample的显著性比较
相关话题的讨论汇总
话题: contest话题: mining话题: 算法话题: data话题: 讨论一下