q****m 发帖数: 153 | 1 【 以下文字转载自 Working 讨论区 】
发信人: qazplm (qazplm), 信区: Working
标 题: 工业界的机器学习
发信站: BBS 未名空间站 (Mon Apr 7 21:40:05 2014, 美东)
我10年就做机器学习了,还发了不少paper。最近这些年不知道怎么机器学习就火起来
了,现在似乎简历上不写个机器学习都不好意思投似的。我以前的感觉就是,机器学习
不就是把feature选好,送给svm就行了么?最近接触了公司的搞机器学习的,发现他连
svm都没有用,就是直接logist regression,仔细一想也是,如果追求速度和实现的话
,svm在工业界是不太好的。
我想问问版上工业界搞机器学习的,你们都用的什么方法?如果我想准备面试的话,需
要准备些什么知识?
谢谢了! |
d*k 发帖数: 207 | 2 这个不同公司的风格和要求差别太大了。
从你的理解看,还是把machine learning想的太简单了。
选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge
和feature engineering占到70%以上的工作量。
SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic
regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了
。SVM和神经网络都是如此,work了没问题,不work的话不好调。
“连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器
,虽然理论简单。用SGD,线性的模型训练成本差别不大。
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec
。复杂模型处理不了这么大的数据量,所以效果秒杀任何复杂算法。我认为搞model是
没多大前途的,因为那么多前人不比你傻多少,都是很常见的问题,能搞出来的早就有
人做了。现在从数学上能做的只可能是边际提升。
另外,如何选择合适的model需要长期的经验。没有model可以处理所有问题。当然我听
说过有高手任何问题都用logistic regression或者神经网络,但这些老大都有几十年
的经验。 |
h*d 发帖数: 19309 | 3 现在deep learning重新开始用ANN了
【在 q****m 的大作中提到】 : 【 以下文字转载自 Working 讨论区 】 : 发信人: qazplm (qazplm), 信区: Working : 标 题: 工业界的机器学习 : 发信站: BBS 未名空间站 (Mon Apr 7 21:40:05 2014, 美东) : 我10年就做机器学习了,还发了不少paper。最近这些年不知道怎么机器学习就火起来 : 了,现在似乎简历上不写个机器学习都不好意思投似的。我以前的感觉就是,机器学习 : 不就是把feature选好,送给svm就行了么?最近接触了公司的搞机器学习的,发现他连 : svm都没有用,就是直接logist regression,仔细一想也是,如果追求速度和实现的话 : ,svm在工业界是不太好的。 : 我想问问版上工业界搞机器学习的,你们都用的什么方法?如果我想准备面试的话,需
|
v***n 发帖数: 5085 | 4 现在一个崛起的潮流是用简单的线性模型并发训练超大数据集
= Hadoop?
knowledge
word2vec
【在 d*k 的大作中提到】 : 这个不同公司的风格和要求差别太大了。 : 从你的理解看,还是把machine learning想的太简单了。 : 选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge : 和feature engineering占到70%以上的工作量。 : SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic : regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了 : 。SVM和神经网络都是如此,work了没问题,不work的话不好调。 : “连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器 : ,虽然理论简单。用SGD,线性的模型训练成本差别不大。 : 现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec
|
y******g 发帖数: 171 | 5 我就不明白,为什么要把所有的数据都放进去?就算是全real time的data也还可以做
resampling,scaling或其他方法。不是real time的方法就更多了。
如果用所有数据+简单算法,我相信一个好的model在有足够sample的情况下足可以得到
更好的结果。modeling用不好往往是缺乏统计知识,特别是CS出身的,有时在公司感觉
和他们很难交流,他们对统计了解太少,model稍微复杂一点就完全不能交流。 |
d*k 发帖数: 207 | 6 Because in practice, data always wins over algorithm. I'm simply telling
everybody in the industry is doing, but feel free to believe otherwise.
【在 y******g 的大作中提到】 : 我就不明白,为什么要把所有的数据都放进去?就算是全real time的data也还可以做 : resampling,scaling或其他方法。不是real time的方法就更多了。 : 如果用所有数据+简单算法,我相信一个好的model在有足够sample的情况下足可以得到 : 更好的结果。modeling用不好往往是缺乏统计知识,特别是CS出身的,有时在公司感觉 : 和他们很难交流,他们对统计了解太少,model稍微复杂一点就完全不能交流。
|
d*k 发帖数: 207 | 7 是的,但现实中还是很少有人用,除了图像识别这类,因为是blackbox。绝大多数
machine learning问题都是人类直觉可以理解的。
【在 h*d 的大作中提到】 : 现在deep learning重新开始用ANN了
|
y******g 发帖数: 171 | 8 可能你的practice的solution已经很成熟,data的结构很简单,所以“data wins”。
其实这是一个永恒的话题,在CS背景和统计背景的data scientist之间。data always
wins 只是对统计不了解,如果model/algorithm不对或不好,只能说越多的data,就会
有越多的junk结果。当然,简单model的适应性更好,这也是为什么你们更喜欢简单的~
~~
【在 d*k 的大作中提到】 : Because in practice, data always wins over algorithm. I'm simply telling : everybody in the industry is doing, but feel free to believe otherwise.
|
y******g 发帖数: 171 | 9 在我做过的practice里,客户提的问题越来越细化,如何在保证computing efficient
的情况下找到更好的solution/model/algorithm,能让我们在竞争中取得优势,才是重
要的。很难想象 data always wins, 虽然我们也用logistic赢了几个项目 :) |
d*k 发帖数: 207 | 10 That makes sense then. What I said is large scale machine learning tasks in
big Internet corps. There's no client or consulting need.
I agree some smart model will win in your scenario. In fact, I know several
Kaggle competitions where complex models like deep learning works very well.
efficient
【在 y******g 的大作中提到】 : 在我做过的practice里,客户提的问题越来越细化,如何在保证computing efficient : 的情况下找到更好的solution/model/algorithm,能让我们在竞争中取得优势,才是重 : 要的。很难想象 data always wins, 虽然我们也用logistic赢了几个项目 :)
|
|
|
y******g 发帖数: 171 | 11 没在big internet corps工作过,不清楚他们的practice。但从我用到的来看,他们主
要做对raw数据的classification,information/features retrieval 等不太复杂的
mining。在这种情况下,计算效率远比其他重要。
根据我自己的工作来看,简单model大行其道有主要有以下原因:
(1) prediction: 一个较好的model能更好的解释test data的内在特点和发现
insights,但是大多在prediction上很难有显著的提高,特别是对classification。
(2) raw data:real数据往往太dirty,data cleaning和imputing很影响model的效
果。
(3) IP:头头们都喜欢能重复使用的东东,大大简化工作流程和提高效率。model越
简单,适应性越好,越容易推广
(4) 统计背景:要根据data的特点来设计更好的model,有时还要自己搞算法来计算
,一般统计的PHD才能做。很多人只是“只其然,不知其所以然”,在这种情况下又如
何可以改进model? |
h*d 发帖数: 19309 | 12 SVM其实背后就是统计学方法的近似求解,不过ML很多做法还是超越了统计学范畴,附
一篇不代表个人观点的相关微博
@数据挖掘与数据分析
【基础知识:统计学和数据挖掘区别】统计学和数据挖掘有着共同的目标:发现数据中
的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统
计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工
具和方法,尤其是计算机学科,例如数据库技术和机器学习 |
h*d 发帖数: 19309 | 13 SVM出来的hyperplane已经不好直觉了,SVD出来的东西就更无法直觉理解,前两年还是
ensemble效果最好,不知道最近两年TREC用什么的最好。
【在 d*k 的大作中提到】 : 是的,但现实中还是很少有人用,除了图像识别这类,因为是blackbox。绝大多数 : machine learning问题都是人类直觉可以理解的。
|
h*d 发帖数: 19309 | 14 information/features retrieval 等不太复杂的mining?
【在 y******g 的大作中提到】 : 没在big internet corps工作过,不清楚他们的practice。但从我用到的来看,他们主 : 要做对raw数据的classification,information/features retrieval 等不太复杂的 : mining。在这种情况下,计算效率远比其他重要。 : 根据我自己的工作来看,简单model大行其道有主要有以下原因: : (1) prediction: 一个较好的model能更好的解释test data的内在特点和发现 : insights,但是大多在prediction上很难有显著的提高,特别是对classification。 : (2) raw data:real数据往往太dirty,data cleaning和imputing很影响model的效 : 果。 : (3) IP:头头们都喜欢能重复使用的东东,大大简化工作流程和提高效率。model越 : 简单,适应性越好,越容易推广
|
y******g 发帖数: 171 | 15 你引用的那个只是一面之词,里面很多东西都不准确,现在也没有权威的结论。最起码
那里面的算法没有超出统计已经研究出的范围,更多的是把统计的算法adapt到上面去
。。。
我现在做的东西也有BFSI的,数据量大不代表着要把所有的东西都放到model中。前期
的简单分析可以那样做,但是面对客户的具体问题,能够用到的数据量其实不多。。。
按你写的那样去做practice,很难在竞争中胜出拿到项目。因为数据都是一样的,再用
一样的model,那就选最便宜的solution了. 想赢得项目,就要有自己的特色和优势,
目前看来一个enhanced model是一个很好的卖点,经常能在竞争中胜出。
【在 h*d 的大作中提到】 : information/features retrieval 等不太复杂的mining?
|
h*d 发帖数: 19309 | 16 我说过了不代表我个人观点,你说这个主要还是看具体领域,TREC前些年是ensemble,
目前的没查,不过文字方面的information retrieval因为模型的局限,不确定是不是
能用deep learning,而这个deep learning就和人工搞统计模型不是一个概念,而目前
公司在legal tech/e-discovery领域,根本不敢用复杂算法,就是简单的BN都被英国法
庭判定为不可确定,所以个人感觉你的研究领域在统计方面,也许是药厂那种,对ML的
东西了解太少了,目的不一样,很多手段方法没什么可比性,说information
retrieval简单更是过于武断。
【在 y******g 的大作中提到】 : 你引用的那个只是一面之词,里面很多东西都不准确,现在也没有权威的结论。最起码 : 那里面的算法没有超出统计已经研究出的范围,更多的是把统计的算法adapt到上面去 : 。。。 : 我现在做的东西也有BFSI的,数据量大不代表着要把所有的东西都放到model中。前期 : 的简单分析可以那样做,但是面对客户的具体问题,能够用到的数据量其实不多。。。 : 按你写的那样去做practice,很难在竞争中胜出拿到项目。因为数据都是一样的,再用 : 一样的model,那就选最便宜的solution了. 想赢得项目,就要有自己的特色和优势, : 目前看来一个enhanced model是一个很好的卖点,经常能在竞争中胜出。
|