由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 工业界的机器学习 (转载)
相关主题
为什么有些phone interview专门问名词解释做NLP或者ML的出路,码工?Scientist?Tech Consulting?
感觉data scientist的面试经常都是瞎问PhD还是 别刷题太狠了,专业更要紧
回馈本版~ 最近面的面经和收集来的面经~Fake resumes in Hyderabad and ICC (转载)
求G家PHD intern host match,方向是Machine Learning, Data Science完全无底线! 烙印电话面试会雇别人作答!
Google PhD Intern, 求Host Match烙印简历造假 (HM,大公司的朋友看过来) (转载)
班上有无data scientist ( / -to-be)?【工作机会】Data Analyst Production Analytics Sr. Developer in Bank of
有在google做SET的么? (转载)【工作机会】Data Analyst
芝加哥附近数据科学家工作机会如何设计cache
相关话题的讨论汇总
话题: model话题: svm话题: 机器话题: 学习话题: data
进入JobHunting版参与讨论
1 (共1页)
q****m
发帖数: 153
1
【 以下文字转载自 Working 讨论区 】
发信人: qazplm (qazplm), 信区: Working
标 题: 工业界的机器学习
发信站: BBS 未名空间站 (Mon Apr 7 21:40:05 2014, 美东)
我10年就做机器学习了,还发了不少paper。最近这些年不知道怎么机器学习就火起来
了,现在似乎简历上不写个机器学习都不好意思投似的。我以前的感觉就是,机器学习
不就是把feature选好,送给svm就行了么?最近接触了公司的搞机器学习的,发现他连
svm都没有用,就是直接logist regression,仔细一想也是,如果追求速度和实现的话
,svm在工业界是不太好的。
我想问问版上工业界搞机器学习的,你们都用的什么方法?如果我想准备面试的话,需
要准备些什么知识?
谢谢了!
d*k
发帖数: 207
2
这个不同公司的风格和要求差别太大了。
从你的理解看,还是把machine learning想的太简单了。
选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge
和feature engineering占到70%以上的工作量。
SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic
regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了
。SVM和神经网络都是如此,work了没问题,不work的话不好调。
“连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器
,虽然理论简单。用SGD,线性的模型训练成本差别不大。
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec
。复杂模型处理不了这么大的数据量,所以效果秒杀任何复杂算法。我认为搞model是
没多大前途的,因为那么多前人不比你傻多少,都是很常见的问题,能搞出来的早就有
人做了。现在从数学上能做的只可能是边际提升。
另外,如何选择合适的model需要长期的经验。没有model可以处理所有问题。当然我听
说过有高手任何问题都用logistic regression或者神经网络,但这些老大都有几十年
的经验。
h*d
发帖数: 19309
3
现在deep learning重新开始用ANN了

【在 q****m 的大作中提到】
: 【 以下文字转载自 Working 讨论区 】
: 发信人: qazplm (qazplm), 信区: Working
: 标 题: 工业界的机器学习
: 发信站: BBS 未名空间站 (Mon Apr 7 21:40:05 2014, 美东)
: 我10年就做机器学习了,还发了不少paper。最近这些年不知道怎么机器学习就火起来
: 了,现在似乎简历上不写个机器学习都不好意思投似的。我以前的感觉就是,机器学习
: 不就是把feature选好,送给svm就行了么?最近接触了公司的搞机器学习的,发现他连
: svm都没有用,就是直接logist regression,仔细一想也是,如果追求速度和实现的话
: ,svm在工业界是不太好的。
: 我想问问版上工业界搞机器学习的,你们都用的什么方法?如果我想准备面试的话,需

v***n
发帖数: 5085
4
现在一个崛起的潮流是用简单的线性模型并发训练超大数据集
= Hadoop?

knowledge
word2vec

【在 d*k 的大作中提到】
: 这个不同公司的风格和要求差别太大了。
: 从你的理解看,还是把machine learning想的太简单了。
: 选feature是一个需要持续迭代的过程 ,解决一个问题,我的经验是domain knowledge
: 和feature engineering占到70%以上的工作量。
: SVM是一个很强大的分类器,但如果是linear kernel,训练成本并不比logistic
: regression高。不用SVM的原因是过于复杂,至少对我来说,弄清所有数学细节太难了
: 。SVM和神经网络都是如此,work了没问题,不work的话不好调。
: “连”SVM都没用?这么说是不合适的,因为logistic regression也是很强大的分类器
: ,虽然理论简单。用SGD,线性的模型训练成本差别不大。
: 现在一个崛起的潮流是用简单的线性模型并发训练超大数据集,例如google的word2vec

y******g
发帖数: 171
5
我就不明白,为什么要把所有的数据都放进去?就算是全real time的data也还可以做
resampling,scaling或其他方法。不是real time的方法就更多了。
如果用所有数据+简单算法,我相信一个好的model在有足够sample的情况下足可以得到
更好的结果。modeling用不好往往是缺乏统计知识,特别是CS出身的,有时在公司感觉
和他们很难交流,他们对统计了解太少,model稍微复杂一点就完全不能交流。
d*k
发帖数: 207
6
Because in practice, data always wins over algorithm. I'm simply telling
everybody in the industry is doing, but feel free to believe otherwise.

【在 y******g 的大作中提到】
: 我就不明白,为什么要把所有的数据都放进去?就算是全real time的data也还可以做
: resampling,scaling或其他方法。不是real time的方法就更多了。
: 如果用所有数据+简单算法,我相信一个好的model在有足够sample的情况下足可以得到
: 更好的结果。modeling用不好往往是缺乏统计知识,特别是CS出身的,有时在公司感觉
: 和他们很难交流,他们对统计了解太少,model稍微复杂一点就完全不能交流。

d*k
发帖数: 207
7
是的,但现实中还是很少有人用,除了图像识别这类,因为是blackbox。绝大多数
machine learning问题都是人类直觉可以理解的。

【在 h*d 的大作中提到】
: 现在deep learning重新开始用ANN了
y******g
发帖数: 171
8
可能你的practice的solution已经很成熟,data的结构很简单,所以“data wins”。
其实这是一个永恒的话题,在CS背景和统计背景的data scientist之间。data always
wins 只是对统计不了解,如果model/algorithm不对或不好,只能说越多的data,就会
有越多的junk结果。当然,简单model的适应性更好,这也是为什么你们更喜欢简单的~
~~

【在 d*k 的大作中提到】
: Because in practice, data always wins over algorithm. I'm simply telling
: everybody in the industry is doing, but feel free to believe otherwise.

y******g
发帖数: 171
9
在我做过的practice里,客户提的问题越来越细化,如何在保证computing efficient
的情况下找到更好的solution/model/algorithm,能让我们在竞争中取得优势,才是重
要的。很难想象 data always wins, 虽然我们也用logistic赢了几个项目 :)
d*k
发帖数: 207
10
That makes sense then. What I said is large scale machine learning tasks in
big Internet corps. There's no client or consulting need.
I agree some smart model will win in your scenario. In fact, I know several
Kaggle competitions where complex models like deep learning works very well.

efficient

【在 y******g 的大作中提到】
: 在我做过的practice里,客户提的问题越来越细化,如何在保证computing efficient
: 的情况下找到更好的solution/model/algorithm,能让我们在竞争中取得优势,才是重
: 要的。很难想象 data always wins, 虽然我们也用logistic赢了几个项目 :)

相关主题
班上有无data scientist ( / -to-be)?做NLP或者ML的出路,码工?Scientist?Tech Consulting?
有在google做SET的么? (转载)PhD还是 别刷题太狠了,专业更要紧
芝加哥附近数据科学家工作机会Fake resumes in Hyderabad and ICC (转载)
进入JobHunting版参与讨论
y******g
发帖数: 171
11
没在big internet corps工作过,不清楚他们的practice。但从我用到的来看,他们主
要做对raw数据的classification,information/features retrieval 等不太复杂的
mining。在这种情况下,计算效率远比其他重要。
根据我自己的工作来看,简单model大行其道有主要有以下原因:
(1) prediction: 一个较好的model能更好的解释test data的内在特点和发现
insights,但是大多在prediction上很难有显著的提高,特别是对classification。
(2) raw data:real数据往往太dirty,data cleaning和imputing很影响model的效
果。
(3) IP:头头们都喜欢能重复使用的东东,大大简化工作流程和提高效率。model越
简单,适应性越好,越容易推广
(4) 统计背景:要根据data的特点来设计更好的model,有时还要自己搞算法来计算
,一般统计的PHD才能做。很多人只是“只其然,不知其所以然”,在这种情况下又如
何可以改进model?
h*d
发帖数: 19309
12
SVM其实背后就是统计学方法的近似求解,不过ML很多做法还是超越了统计学范畴,附
一篇不代表个人观点的相关微博
@数据挖掘与数据分析
【基础知识:统计学和数据挖掘区别】统计学和数据挖掘有着共同的目标:发现数据中
的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统
计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工
具和方法,尤其是计算机学科,例如数据库技术和机器学习
h*d
发帖数: 19309
13
SVM出来的hyperplane已经不好直觉了,SVD出来的东西就更无法直觉理解,前两年还是
ensemble效果最好,不知道最近两年TREC用什么的最好。

【在 d*k 的大作中提到】
: 是的,但现实中还是很少有人用,除了图像识别这类,因为是blackbox。绝大多数
: machine learning问题都是人类直觉可以理解的。

h*d
发帖数: 19309
14
information/features retrieval 等不太复杂的mining?

【在 y******g 的大作中提到】
: 没在big internet corps工作过,不清楚他们的practice。但从我用到的来看,他们主
: 要做对raw数据的classification,information/features retrieval 等不太复杂的
: mining。在这种情况下,计算效率远比其他重要。
: 根据我自己的工作来看,简单model大行其道有主要有以下原因:
: (1) prediction: 一个较好的model能更好的解释test data的内在特点和发现
: insights,但是大多在prediction上很难有显著的提高,特别是对classification。
: (2) raw data:real数据往往太dirty,data cleaning和imputing很影响model的效
: 果。
: (3) IP:头头们都喜欢能重复使用的东东,大大简化工作流程和提高效率。model越
: 简单,适应性越好,越容易推广

y******g
发帖数: 171
15
你引用的那个只是一面之词,里面很多东西都不准确,现在也没有权威的结论。最起码
那里面的算法没有超出统计已经研究出的范围,更多的是把统计的算法adapt到上面去
。。。
我现在做的东西也有BFSI的,数据量大不代表着要把所有的东西都放到model中。前期
的简单分析可以那样做,但是面对客户的具体问题,能够用到的数据量其实不多。。。
按你写的那样去做practice,很难在竞争中胜出拿到项目。因为数据都是一样的,再用
一样的model,那就选最便宜的solution了. 想赢得项目,就要有自己的特色和优势,
目前看来一个enhanced model是一个很好的卖点,经常能在竞争中胜出。

【在 h*d 的大作中提到】
: information/features retrieval 等不太复杂的mining?
h*d
发帖数: 19309
16
我说过了不代表我个人观点,你说这个主要还是看具体领域,TREC前些年是ensemble,
目前的没查,不过文字方面的information retrieval因为模型的局限,不确定是不是
能用deep learning,而这个deep learning就和人工搞统计模型不是一个概念,而目前
公司在legal tech/e-discovery领域,根本不敢用复杂算法,就是简单的BN都被英国法
庭判定为不可确定,所以个人感觉你的研究领域在统计方面,也许是药厂那种,对ML的
东西了解太少了,目的不一样,很多手段方法没什么可比性,说information
retrieval简单更是过于武断。

【在 y******g 的大作中提到】
: 你引用的那个只是一面之词,里面很多东西都不准确,现在也没有权威的结论。最起码
: 那里面的算法没有超出统计已经研究出的范围,更多的是把统计的算法adapt到上面去
: 。。。
: 我现在做的东西也有BFSI的,数据量大不代表着要把所有的东西都放到model中。前期
: 的简单分析可以那样做,但是面对客户的具体问题,能够用到的数据量其实不多。。。
: 按你写的那样去做practice,很难在竞争中胜出拿到项目。因为数据都是一样的,再用
: 一样的model,那就选最便宜的solution了. 想赢得项目,就要有自己的特色和优势,
: 目前看来一个enhanced model是一个很好的卖点,经常能在竞争中胜出。

1 (共1页)
进入JobHunting版参与讨论
相关主题
如何设计cacheGoogle PhD Intern, 求Host Match
问一下那些互联网公司的data mining, machine learning的码工到底是做什么的?班上有无data scientist ( / -to-be)?
Recommender Systems Job opening. Machine Learning needed有在google做SET的么? (转载)
yahoo面经芝加哥附近数据科学家工作机会
为什么有些phone interview专门问名词解释做NLP或者ML的出路,码工?Scientist?Tech Consulting?
感觉data scientist的面试经常都是瞎问PhD还是 别刷题太狠了,专业更要紧
回馈本版~ 最近面的面经和收集来的面经~Fake resumes in Hyderabad and ICC (转载)
求G家PHD intern host match,方向是Machine Learning, Data Science完全无底线! 烙印电话面试会雇别人作答!
相关话题的讨论汇总
话题: model话题: svm话题: 机器话题: 学习话题: data