r*****d 发帖数: 346 | 1 是否从哲学跟细节(粗中有细的细节,不是那种一毫米一毫米的细节)掌握算法并不意
味着getting hands dirty and implementing it from scratch.
欢迎大牛讨论 :) |
l*******m 发帖数: 1096 | 2 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
个R的包。当然,有其他事业和家庭规划,另说了。
【在 r*****d 的大作中提到】 : 是否从哲学跟细节(粗中有细的细节,不是那种一毫米一毫米的细节)掌握算法并不意 : 味着getting hands dirty and implementing it from scratch. : 欢迎大牛讨论 :)
|
r*****d 发帖数: 346 | 3 谢谢,很有见解!
【在 l*******m 的大作中提到】 : 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不 : 是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一 : 个R的包。当然,有其他事业和家庭规划,另说了。
|
l**********e 发帖数: 336 | 4 (most)new & serious ML algorithms are not released in R for sure (some stat
ppl play with R)
【在 l*******m 的大作中提到】 : 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不 : 是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一 : 个R的包。当然,有其他事业和家庭规划,另说了。
|
l*******m 发帖数: 1096 | 5 那个50万 w2 G家老兄,是学统计的。
stat
【在 l**********e 的大作中提到】 : (most)new & serious ML algorithms are not released in R for sure (some stat : ppl play with R)
|
l**********e 发帖数: 336 | 6 ... not relevant at all
btw, there are many examples of CS ppl get high package in jobhunting @
mitbbs
【在 l*******m 的大作中提到】 : 那个50万 w2 G家老兄,是学统计的。 : : stat
|
c****t 发帖数: 19049 | 7 统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
prediction。统计里用这词需要很强的design of experiments设定的,小伙伴们就直
接通用了。当然小伙伴们是被引导的,最早是marketing里兼做点data mining的人这么
宣传的。20年后,这变成“常识”了。反正最早data mining里用的decision trees,
clustering, association rules统计也教。machine learning这东东小伙伴一说起来
不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
套跟传统glm/gam的framework的思考方式本质上没啥区别,整个体系可没传统glm/gam
发达。neural network几起几落也没弄出个系统,太开放了没法优化。在出kernel
learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做
global optimization。统计做Bayesian的大多认为自己不是搞优化,实际上就是另一
种思路做那不可能的global optimization,然后很多来自design of experiments的概
念限制给哲学化地取消了,所以更能卖给必须用observational data的。主要研究优化
的是operation research,或一些applied math的professors。现在统计做Bayesian当
然不去研究优化,精力都用到神马adaptive LASSO这种东东上去了。不做Bayesian的也
很少去关心mathematical programming的进展。mathematical programming这边second
order cone mixed-integer programming都已经商用化了。学统计完全没概念吧?前
几天统计版有争论logistic regression和SVM哪个好。不客气说没人知到各自的优化算
法细节吧。不知道细节就没法调,就只能用别人写好的package/library。比的也就是
现成的package/library,跟这算法能做到什么关系不大。当然学优化的也不懂很多统计
。大家都闭门造车。比如统计里为了研究failure time自己弄了一套survival
analysis。几十年前数据收集很差的时后也就罢了,现在收集数据多很多了,
mathematical finance/econometrics里发展出的很多新的time series的ideas还是没
人用到failure time上。其实无论statistical models, machine learning models,
mathematical programming models还是time-series models,无非是搞优化,没人真
能作什么prediction/forecast,实际算法千变万化也不过是为了achieve那不可能做到
的global optimization。真有人能比较精确的predict/forecast,那早统治人类了。狗
狗,NSA啥的也用不着花这么大力气去搞大家的隐私。
因为小伙伴们理解的prediction/forecast实际上不存在,做predictive modeling无非
就是找个更适合你要处理的data的方法罢了。主要要点是你的观众买你账。另外neural
network最近借着deep learning的东风试图还魂。反正有人愿意花钱总能找到合适的
data来用的。大家将来肯定要学更fancy的神马backpropagation,divergence神马的
Big data主要不是说size大,主要是说新型的text,photos,audio/video神马的没法放
到relational database里去。现在IT的解决方案就是弄新型database。更好的解决方
案是在前端直接structuralize(就是把text,picture,video神马的全扫描了转成特定
的数码集,甚至找到更有效的方法表达这些扫描后/structuralized的数码集并存储)
。当年text analytics开始时就有人提过; 当时硬件没法实现。现在鼓吹的node计算
也都是后端的,把data弄出来,再strutralize,再做model。这些过程不推到前端那跟
传统做法没神马区别。
学算法的谈coding用不着自悲。远了不说去programming版潜潜水就知道了。学CS的考
虑的是做系统,思考不同的问题,用不同的librarys/packages罢了。你让他们说说科
学计算他们也不懂。很久以前有关算法的硬件优化和运行中的RAM优化可都是学applied
math和engineering(非computer engineering)的人搞的,比如现在所有科学计算都
必用的lapack什么的。现在大概没人会要求你这些都懂,因为估计雇人的自己也不知道
。大多数人也就是用package/library或商用软件混口饭吃罢了。当然因为目前商用的
没跟上,小伙伴们day to day都要应付类似command line的界面。远没有按按button就
出结果,拽拽图表就有人夸的生活舒服。压力山大。这不是coding,不过是被迫用
command line界面去call package/library罢了。慢慢等早晚会有button可按的,那时
候“解决问题能力”,“口才”就决定你的pay了
。 |
r*****d 发帖数: 346 | 8 赞斑竹!
不明觉厉```
我今天也在想,,lightroom说的动手能力是一方面,CS那边最marketable的assets更
好像是:系统(约等于)架构(约等于)设计,例子有parallel programming(科学计
算,对DS很重要), design of scalable systems. 这两个例子都是theoretical and
philosophical的,有木有?
Leetcode, 有时我在想,一个局部问题,如果已经描述得非常清楚了是不是意味着已经
解决了呢?
gam
【在 c****t 的大作中提到】 : 统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有 : prediction。统计里用这词需要很强的design of experiments设定的,小伙伴们就直 : 接通用了。当然小伙伴们是被引导的,最早是marketing里兼做点data mining的人这么 : 宣传的。20年后,这变成“常识”了。反正最早data mining里用的decision trees, : clustering, association rules统计也教。machine learning这东东小伙伴一说起来 : 不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这 : 套跟传统glm/gam的framework的思考方式本质上没啥区别,整个体系可没传统glm/gam : 发达。neural network几起几落也没弄出个系统,太开放了没法优化。在出kernel : learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质 : 上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做
|