由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - f.t."我不会编程"
相关主题
报面筋求实习合租 (转载)请问这样的数据应该用什么样的模型适合。
刚入行新人的两个问题feature selection的方法求教
model selection problem问个feature selection的问题
我觉得neural network应用范围不大啊有没有大牛来classifiy一下 PCA用法吗?
为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM做credit risk scorecard的朋友们, 请进来, 有问题求教 (转载)
Postdoctoral Fellowship at UConn这类问题咋回答
2016 International Conference on Applied Mathematics and Data Science (ICAMDS2016)评估feature的预测能力
借版面问个machine learning的问题一道药厂computational biology的面试题
相关话题的讨论汇总
话题: 优化话题: 统计话题: learning话题: data
进入DataSciences版参与讨论
1 (共1页)
r*****d
发帖数: 346
1
是否从哲学跟细节(粗中有细的细节,不是那种一毫米一毫米的细节)掌握算法并不意
味着getting hands dirty and implementing it from scratch.
欢迎大牛讨论 :)
l*******m
发帖数: 1096
2
看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
个R的包。当然,有其他事业和家庭规划,另说了。

【在 r*****d 的大作中提到】
: 是否从哲学跟细节(粗中有细的细节,不是那种一毫米一毫米的细节)掌握算法并不意
: 味着getting hands dirty and implementing it from scratch.
: 欢迎大牛讨论 :)

r*****d
发帖数: 346
3
谢谢,很有见解!

【在 l*******m 的大作中提到】
: 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
: 是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
: 个R的包。当然,有其他事业和家庭规划,另说了。

l**********e
发帖数: 336
4
(most)new & serious ML algorithms are not released in R for sure (some stat
ppl play with R)

【在 l*******m 的大作中提到】
: 看发展计划吧,如果是想在技术上有所成就,认为编程很容易又不去动手是矛盾的,不
: 是懒就是不聪明。大牛的动手能力都十分强,至少设计个learning算法都会release一
: 个R的包。当然,有其他事业和家庭规划,另说了。

l*******m
发帖数: 1096
5
那个50万 w2 G家老兄,是学统计的。

stat

【在 l**********e 的大作中提到】
: (most)new & serious ML algorithms are not released in R for sure (some stat
: ppl play with R)

l**********e
发帖数: 336
6
... not relevant at all
btw, there are many examples of CS ppl get high package in jobhunting @
mitbbs

【在 l*******m 的大作中提到】
: 那个50万 w2 G家老兄,是学统计的。
:
: stat

c****t
发帖数: 19049
7
统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
prediction。统计里用这词需要很强的design of experiments设定的,小伙伴们就直
接通用了。当然小伙伴们是被引导的,最早是marketing里兼做点data mining的人这么
宣传的。20年后,这变成“常识”了。反正最早data mining里用的decision trees,
clustering, association rules统计也教。machine learning这东东小伙伴一说起来
不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
套跟传统glm/gam的framework的思考方式本质上没啥区别,整个体系可没传统glm/gam
发达。neural network几起几落也没弄出个系统,太开放了没法优化。在出kernel
learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做
global optimization。统计做Bayesian的大多认为自己不是搞优化,实际上就是另一
种思路做那不可能的global optimization,然后很多来自design of experiments的概
念限制给哲学化地取消了,所以更能卖给必须用observational data的。主要研究优化
的是operation research,或一些applied math的professors。现在统计做Bayesian当
然不去研究优化,精力都用到神马adaptive LASSO这种东东上去了。不做Bayesian的也
很少去关心mathematical programming的进展。mathematical programming这边second
order cone mixed-integer programming都已经商用化了。学统计完全没概念吧?前
几天统计版有争论logistic regression和SVM哪个好。不客气说没人知到各自的优化算
法细节吧。不知道细节就没法调,就只能用别人写好的package/library。比的也就是
现成的package/library,跟这算法能做到什么关系不大。当然学优化的也不懂很多统计
。大家都闭门造车。比如统计里为了研究failure time自己弄了一套survival
analysis。几十年前数据收集很差的时后也就罢了,现在收集数据多很多了,
mathematical finance/econometrics里发展出的很多新的time series的ideas还是没
人用到failure time上。其实无论statistical models, machine learning models,
mathematical programming models还是time-series models,无非是搞优化,没人真
能作什么prediction/forecast,实际算法千变万化也不过是为了achieve那不可能做到
的global optimization。真有人能比较精确的predict/forecast,那早统治人类了。狗
狗,NSA啥的也用不着花这么大力气去搞大家的隐私。
因为小伙伴们理解的prediction/forecast实际上不存在,做predictive modeling无非
就是找个更适合你要处理的data的方法罢了。主要要点是你的观众买你账。另外neural
network最近借着deep learning的东风试图还魂。反正有人愿意花钱总能找到合适的
data来用的。大家将来肯定要学更fancy的神马backpropagation,divergence神马的
Big data主要不是说size大,主要是说新型的text,photos,audio/video神马的没法放
到relational database里去。现在IT的解决方案就是弄新型database。更好的解决方
案是在前端直接structuralize(就是把text,picture,video神马的全扫描了转成特定
的数码集,甚至找到更有效的方法表达这些扫描后/structuralized的数码集并存储)
。当年text analytics开始时就有人提过; 当时硬件没法实现。现在鼓吹的node计算
也都是后端的,把data弄出来,再strutralize,再做model。这些过程不推到前端那跟
传统做法没神马区别。
学算法的谈coding用不着自悲。远了不说去programming版潜潜水就知道了。学CS的考
虑的是做系统,思考不同的问题,用不同的librarys/packages罢了。你让他们说说科
学计算他们也不懂。很久以前有关算法的硬件优化和运行中的RAM优化可都是学applied
math和engineering(非computer engineering)的人搞的,比如现在所有科学计算都
必用的lapack什么的。现在大概没人会要求你这些都懂,因为估计雇人的自己也不知道
。大多数人也就是用package/library或商用软件混口饭吃罢了。当然因为目前商用的
没跟上,小伙伴们day to day都要应付类似command line的界面。远没有按按button就
出结果,拽拽图表就有人夸的生活舒服。压力山大。这不是coding,不过是被迫用
command line界面去call package/library罢了。慢慢等早晚会有button可按的,那时
候“解决问题能力”,“口才”就决定你的pay了
r*****d
发帖数: 346
8
赞斑竹!
不明觉厉```
我今天也在想,,lightroom说的动手能力是一方面,CS那边最marketable的assets更
好像是:系统(约等于)架构(约等于)设计,例子有parallel programming(科学计
算,对DS很重要), design of scalable systems. 这两个例子都是theoretical and
philosophical的,有木有?
Leetcode, 有时我在想,一个局部问题,如果已经描述得非常清楚了是不是意味着已经
解决了呢?

gam

【在 c****t 的大作中提到】
: 统计被认为是predictive modeling的基础纯属意外。原因是统计常用词里有
: prediction。统计里用这词需要很强的design of experiments设定的,小伙伴们就直
: 接通用了。当然小伙伴们是被引导的,最早是marketing里兼做点data mining的人这么
: 宣传的。20年后,这变成“常识”了。反正最早data mining里用的decision trees,
: clustering, association rules统计也教。machine learning这东东小伙伴一说起来
: 不是decision trees就是neural network。其实这俩都没啥代表性。decision tree这
: 套跟传统glm/gam的framework的思考方式本质上没啥区别,整个体系可没传统glm/gam
: 发达。neural network几起几落也没弄出个系统,太开放了没法优化。在出kernel
: learning之前machine learning在理论体系上比起传统统计也没啥亮点。传统统计本质
: 上就是做优化。一般优化不可能是global的就弄出bootstrap/jackknife来企图做

1 (共1页)
进入DataSciences版参与讨论
相关主题
一道药厂computational biology的面试题为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM
面试的时候back propagation algorithm一般会怎么问?Postdoctoral Fellowship at UConn
神经网络原理这门课对统计重要么 (转载)2016 International Conference on Applied Mathematics and Data Science (ICAMDS2016)
Neural Network面试的时候会怎么问啊?借版面问个machine learning的问题
报面筋求实习合租 (转载)请问这样的数据应该用什么样的模型适合。
刚入行新人的两个问题feature selection的方法求教
model selection problem问个feature selection的问题
我觉得neural network应用范围不大啊有没有大牛来classifiy一下 PCA用法吗?
相关话题的讨论汇总
话题: 优化话题: 统计话题: learning话题: data