第4页 - 关于svm的讨论汇总 - 话题女王

z****g
发帖数: 4616

你还知道一年半前我在股版公开推荐的NFLX和SVM吗？NFLX涨了５倍，SVM涨了３倍多。
SVM就是白银矿

q****m
发帖数: 153

我10年就做机器学习了，还发了不少paper。最近这些年不知道怎么机器学习就火起来
了，现在似乎简历上不写个机器学习都不好意思投似的。我以前的感觉就是，机器学习
不就是把feature选好，送给svm就行了么？最近接触了公司的搞机器学习的，发现他连
svm都没有用，就是直接logist regression，仔细一想也是，如果追求速度和实现的话
，svm在工业界是不太好的。
我想问问版上工业界搞机器学习的，你们都用的什么方法？如果我想准备面试的话，需
要准备些什么知识？
谢谢了！

g**********y
发帖数: 423

来自主题: Immigration版 - 转一篇审稿, CS方向

Hi gzxy,
I am very interested in reviewing the paper.
My name is Zhengdeng Lei, a bioinformatics specialist at the University of
Illinois at Chicago. My research is focused on computational biology and
machine learning.
My google scholar and CV:
http://scholar.google.com/citations?user=1f69WLoAAAAJ&sortby=pu
https://dl.dropboxusercontent.com/u/62547840/CV_ZhengdengLei_12-10-2013.pdf
My first-author papers:
Identification of Molecular Subtypes of Gastric Cancer with Different
Responses to PI3-Kin... 阅读全帖

z*****3
发帖数: 1793

来自主题: Go版 - 专业科普AlphaGO (转载)

【以下文字转载自 Military 讨论区】
发信人: zyszys3 (zyszys3), 信区: Military
标题: 专业科普AlphaGO
发信站: BBS 未名空间站 (Fri Mar 11 13:54:23 2016, 美东)
本人CS PHD，专攻方向reinforcement learning （RL），恰好AlphaGo用到很多用到很
多RL。看不下去一群文科生+下室索南YY，乱猜测。
第一个问题，AlphaGO涉及到机器学习中的supervised learning（SL）和RL。这是机器
学习下的两个分支。deep learning是目前兴起的另外一个分支。Deep Mind正是运用
deep learning的deep neural network作为基础架构来解决 prediction （涉及SL）和
action selection 问题（涉及RL）。
第二个问题，AlphaGO 基础构造
1）利用SL学习了一个policy network。这里解释一下policy，policy是RL，control
thoery中的一个重要概念，简单来讲就是当... 阅读全帖

p****r
发帖数: 104

来自主题: CS版 - 一道Support Vector Machines的面试题，如何解答？

给出4个点的坐标和他们的class如下：
(0, 1)+
(0,-1)-
(1, 2)+
(1,-2)-
请给出SVM的decision hyperplane
如果现在增加一个点：(2, 0)+，请再给出SVM的decision hyperplane？
想知道面对这样类型的问题，如何解答？我虽然对SVM的算法了解，但是这样的例子题
在面试当中出现，还真不知道如何回答才好。请各位大侠支招！

N**D
发帖数: 10322

来自主题: CS版 - 牛人很神奇的简历啊

这个个搞graphical model的说起svm, 别说"notthing but ...", "can be obtained
from this .... prob model..." etc
有本事提出个更好的
SVM很运气，根本没有对应的noise model

Vapnik 在苏联20年就专心 separable 的了。separable SVM 其实 Vapnik 早就在苏联
搞得差不多了，到了美国，把这些集大成的精华发在一个地方。要是真的一点点
develop着发，就像大多数人一样，
Vapnik 比，毕竟年龄相差20岁了。
联科学界的情况：http://www.springerlink.com/content/0byp2upjdgc8ycr9/

f*******r
发帖数: 383

来自主题: CS版 - 牛人很神奇的简历啊

Wahba也就是歪打正招吧，等SVM热起来了她才又回过头去炒冷饭。
她的那篇71文章无非是证明了光滑spline(或是基于某种regularization
的问题，她并没有提出regularization这个观念而只是考虑了
光滑spline那类特例)的解以某种形式存在，对generalization
并没有触及。svm配上rkhs恰好可以用她以前的结果。
vapnik最本质的贡献并不是光大rkhs而是通过vc维数给出了基于
ERM 这类学习方法的一个理论刻划。SVM恰好是他这套理论的第
一个实例。

d******e
发帖数: 7844

来自主题: CS版 - 牛人很神奇的简历啊

别把工业界捧得那么高，呵呵，说到底你也就是个技工而已。
SVM在生物医学的圈子里已经遍地开花了，别说人家华而不实，人家自娱自乐比你High
多了。
话说回来，瞧不起SVM的话，你就去弄点新东西，弄一个比SVM好的，大家肯定都来捧你。

w***g
发帖数: 5958

来自主题: CS版 - 牛人很神奇的简历啊

SVM好用尽人皆知。如果没有别的背景信息的前提下，第一个试的就是SVM。Meghat的帖
子好歹让大家知道了对spam filtering来说naive bayes有可能比SVM好用。spam
filtering是一个很重要的应用, 所以我觉得Meghat的帖子还是很有价值的。

d******e
发帖数: 7844

来自主题: CS版 - 牛人很神奇的简历啊

呵呵，没看出来，大侠把你的文章贴出来看看吧，看看你的影响力和SVM比如何。
KNN,Naive Bayes在你那里再NB也不是你自己的东西，做点NB的东西给大家看看，别总
一天SVM不行，SVM不行的，耍嘴皮子谁不会啊，亮亮你的真本事啊。

B****x
发帖数: 17

来自主题: CS版 - 牛人很神奇的简历啊

http://blog.sina.com.cn/s/blog_661c16d00100kc51.html
机器学习大家谈（转贴）(2010-03-17 21:42:19)转载
标签：杂谈分类：学术科研
闲着无事，想写点一些我所了解的machine learning大家。由于学识浅薄，见识有限，
并且仅局
限于某些领域，一些在NLP及最近很热的生物信息领域活跃的学者我就浅陋无知，所以
不对的地方大
家仅当一笑。
Machine Learning 大家(1)：M. I. Jordan
在我的眼里，M Jordan无疑是武林中的泰山北斗。他师出MIT，现在在berkeley坐
镇一方，
在附近的两所名校（加stanford）中都可以说无出其右者，stanford的Daphne Koller
虽然也
声名遐迩，但是和Jordan比还是有一段距离。
Jordan身兼stat和cs两个系的教授，从他身上可以看出Stat和ML的融合。
Jordan 最先专注于mixtures of experts，并迅速奠定了自己的地位，我们哈尔滨
工业大
学的校友徐雷跟他做博后期间，也在这个方向上沾光不少... 阅读全帖

N**D
发帖数: 10322

来自主题: CS版 - 牛人很神奇的简历啊

这个个搞graphical model的说起svm, 别说"notthing but ...", "can be obtained
from this .... prob model..." etc
有本事提出个更好的
SVM很运气，根本没有对应的noise model

Vapnik 在苏联20年就专心 separable 的了。separable SVM 其实 Vapnik 早就在苏联
搞得差不多了，到了美国，把这些集大成的精华发在一个地方。要是真的一点点
develop着发，就像大多数人一样，就br />
Vapnik 比，毕竟年龄相差20岁了。
联科学界的情况：http://www.springerlink.com/content/0byp2upjdgc8ycr9/

d******e
发帖数: 7844

来自主题: CS版 - 牛人很神奇的简历啊

w***g
发帖数: 5958

来自主题: CS版 - 牛人很神奇的简历啊

d******e
发帖数: 7844

来自主题: CS版 - 牛人很神奇的简历啊

d******e
发帖数: 7844

来自主题: CS版 - Valiant 是理论大牛

到现在为止，很多实际问题中，人们仍然还只能玩玩small sample size，所谓大规模
数据，只是p大罢了，所以SVM很有市场。
即使是在大规模的n，比如text，SVM依然有用武之地，随着更快的优化算法和并行算法
的出现，SVM老当益壮，参见ICML 09的Best Paper。

learning方
-N

p*********g
发帖数: 226

来自主题: CS版 - Valiant 是理论大牛

> 50年后的Machine Learning教材里，SVM还会是重头戏
你还真别说，现在哪本教材里 SVM 是重头戏？即使是 Alex Smola 现在在写的教材也
不是（他和 Scholkopf 那本当然不算教材），Robert Schapire, Kevin Murphy 在写
的更不是了。至于 Elements of machine learning, PRML, Tom Mitchel 的就更不提
了。
真的等你写书时，发现 SVM 也就是群星中的一颗。现在火的原因 wdong 讲得差不多了。

i**p
发帖数: 940

来自主题: CS版 - 学术届讲的是开创性的贡献

通常比的不是哪个效果好，应用广。而是看有没有提出概念/问题来奠定未来研究的基
础。比如turing
machine，有什么实用性？比如smalltalk vs c++, smalltalk开创者得了turing奖.从
这个角
度上讲，pac learning这个framework是很牛的。当然Vapnik也是大牛一个。
我不是machine learning科班出身。但svm的最大创新在哪里? 提出作classification要
maximize margin这个概念? svm算法本身，只要概念提出，很多人都能搞出来。
还有，现在在这个版上吹svm的，有几个是在industry里工作知道实情的?

t***s
发帖数: 15

来自主题: CS版 - 请教一下这个做Learning的faculty水平如何？

这个人做的东西我比较了解。首先lssvm不是svm，两者的用的loss functioin
不一样（square loss vs. hinge loss），所以lssvm toolbox跟libsvm或者
svmlight不同，它不是一个svm solver。效果上，lssvm和svm不相上下，但用
的人并不多。这个人2000年左右搞出lssvm，发了非常多的paper，还写了一本书，
但其实贡献并不大，因为lssvm不过是已经有的某些machine的新的提法而已
（比如regularized networks，regularized kernel fda）。ml主流对他这种
鸡毛当令箭的做法不太看得上，甚至有人在文章里直接讽刺挖苦（e.g. ryan rifkin）。
他的publication里，icml 0, nips 1, jmlr 3，但都不是第一作者。结论：
不在主流ml community里，本人学术水平一般。

s********k
发帖数: 6180

来自主题: Programming版 - 板上有修Coursera上的machine learning课程的么？

deep learning感觉是确实可以work，当然目前之后超级大公司才能做，不过据我专业
的朋友说这个绝对是可以完全将SVM之类扫入垃圾堆的。SVM我10年前就在做了，用在人
脸识别什么上面，不过这十年感觉也没啥大发展，就那样了，无非是对data set代表不
足的一种补充，不过现在大数据爆发dataset sampling根本不是一个问题，另外SVM避
免过度学习现在看来也不是一个什么特别的优点，当然我是外行，抛砖而已

m***r
发帖数: 359

来自主题: Programming版 - Python日报 2015年2月楼

Python日报 2015-02-22
@好东西传送门出品, 过刊见
http://py.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-02-22/short.html
1) 【Python下处理类间不均衡的分类问题】 by @爱可可-爱生活
关键词：数据科学, 机器学习, 可视化
[文章]《Dealing with Unbalanced Classes ,Svm, Random Forests And Decision
Trees In Python》 [1] Python下用Svm, Random Forests和Decision Trees分类wine
quality数据，并对类间不均衡问题进行可视化和讨论，很不错
[1] http://www.bigdataexaminer.com/dealing-with-unbalanced-classes-svm-random-forests-and-decisi... 阅读全帖

t******0
发帖数: 629

来自主题: EE版 - 请问一个关于design_vision逻辑综合的问题

我用modelsim下写的verilog代码，放到NCverilog下跑功能也是对的。
于是我想先用Synopsys综合一下试试。
按照网上找到的某大学试验手册的方法，进行综合。结果综合成功。
（综合时用了 iit018_stdcells.db iit018_stdcells.lib，但是不知道设置对了没有）
我把生成的门级代码，Ctrl+V 到我windows下的modelsim里，compile成功。结果Start
simulation的时候就出错了（还没到功能验证的阶段）
** Error: (vsim-3033) C:/Modeltech_pe_edu_10.1c/examples/svm.v(3405):
Instantiation of 'NOR2X1' failed. The design unit was not found.
# ** Error: (vsim-3033) C:/Modeltech_pe_edu_10.1c/examples/svm.v(4216):
Instantiation of 'XOR2X1' failed. The design unit w... 阅读全帖

w**********y
发帖数: 1691

来自主题: Quant版 - 关于volatiltiy prediction

As I know, both Adaboost and SVM or kernel SVM can't do feature selection.
You can only control some (tune) parameters, like the lambda in gaussian
kernel. or number of iterations in Adaboost.
Surely, you can do dimension reduction first.
In addition, SVM and Adaboost are classification methods. They only give 0
or 1 predictions (or probability of 1), not continuous predictions.
My research is in estimations of realized volatility/integrated volatility,
based on high frequency data with microstr... 阅读全帖

w**********y
发帖数: 1691

来自主题: Statistics版 - 找工作总结 [下]

赞一个.
master毕业能把1,2解释清楚,很不错,很牛
SVM和boosting之类的方法，对于credit scoring data来说表现并不比Logistic
Rregression更好
个人觉得,这个取决于classification是不是linear的. 如果P很大,而且主要是linear
的,logistic regression + L2/L1 penalty 有可能比SVM好;Hastie那篇经典论文给了
一些例子
如果是curve的,那么kernel SVM可能会更好;
Boosting不能算一种方法,而是一个概念,就像bagging这个概念一样.最传统可能的
AdaBoosting,印象中就是一层的tree然后boost..我知道一些保险公司用decision tree
,因为他们需要把一些continuous variable转换成categorical的.
而现在的data mining的趋势(我了解的几个比赛结果),往往要几个model的weighted
summary 结果才能最好.而且传统的不一定比popular的差(去年有个比赛,ANN赢了第一)
最... 阅读全帖

v*******a
发帖数: 1193

来自主题: Statistics版 - 找工作总结 [下]

fancy的model一般来说没啥用武之地(实际上也有论文指出，SVM和boosting之类的方法
，对于credit scoring data来说表现并不比Logistic Rregression更好)。
请问这个paper是哪个？我想来研读一下。
what is SVM ?

个opening，马上投简历。两三个星期之后HR做了phone screen，几天之后和HM还有未
来的一个同事进行了phone interview。6月底onsite，onsite后半个小时电话通知了口
头offer。考虑到拖家带口不好挪窝，而且offer在我这鸟地方已经算很不错的了，没有
讨价还价就接受了。 
仅仅是来自于我拿到的offer，也有我对同类型opening面试的一些总结，和与朋友交流
的一些经验(主要是statisticians/credit risk modeling at banks). 面试需要准备
的技术问题TQ主要包括几方面: 
transformation, outlier detection, missing valuerelated..., etc.... 阅读全帖

d******e
发帖数: 7844

来自主题: Statistics版 - Support vector machine的优点是什么

这答得哪而跟哪儿啊？
SVM最大的优点是Minimize Maximum Margin的思想，让generalization能力极大的提高。
你说的很多predictor跟outcome不相关，准确的说应该是Margin最终只决定于其边缘和
内部的样本，这些样本被称为support vector，这种sample sparsity的结构让结果更
稳定。但这只是L2 SVM最大化geometric margin的结果。如果使用L1 SVM最大化L_{\
infty} margin,那么，得到的就是support feature了，也就是feature的sparsity.
我喜欢的另一个优点是：虽然使用surrogate loss，但是却是Fisher consistent的，
而且是convex的，有很多非常成熟的高速解法，比如cutting-plane，优化起来快速便
捷。
至于什么非线性，那是kernel的功劳，Logistic Regression一样也可以有非线性的版
本。

j*******2
发帖数: 309

来自主题: Statistics版 - Support vector machine的优点是什么

谢大牛回答。什么是L1 svm 和L2呢？就我的理解，kernel函数把低维的feature映射到
高维，这样
的话，最后得到的hyperplane维数还是很高的，为什么是sparse feature呢？另外，
svm是不是
用在small sample上效果很好？
还有，svm最后的结果只和support vector有关，这是不是算法稳定的原因呢？

高。

F****n
发帖数: 3271

来自主题: Statistics版 - classification 问题求教!!

不知道你上过SVM的课没有, 上过的话应该记得有个常见的象棋盘黑白格子状的SVM分类
例子，两类无法用一条多项曲线分开，这种情况SVM很容易 out-perform 回归。相反，
如果可以用一条多项曲线分开，多项回归永远可以通过加项来达到 perfect fitting.
估计你的数据是第二类，所以不要在精度上纠结，work on over-fitting /
transferability, i.e. using CV to test robustness of the classification.

F****n
发帖数: 3271

来自主题: Statistics版 - 问个关于lasso的问题

Obviously, you don't understand what I say.
SVM's non-linearity != Polynomials
SVM is superior because it handles more complex non-linearity with greater
generalizability.
If you only look at predication accuracy SVM will be "beaten" by a lot of
methods. But that's nonsense.

w**2
发帖数: 147

来自主题: DataSciences版 - 刚入行新人的两个问题

我试着来回答一下：
（1）用Radial SVM做classification,一开始忘了normalization（数据的scale差异极
大，有的在0-1波动，有的超过1000，的确有这个必要），赶紧perform normalization
后发现accuracy,sensitivity, kappa这些metric基本没有significant improvement (
平均就增加了0.05左右)。不知道这是为何？
The kernel's in SVM makes computation in high dimension more convenient.
Depends on how it maps to the higher dimension, if it is Radial, it follows
the Gaussian distribution so there is the flavor of standardization in there
. Besides, your regularization C also controls how much wei... 阅读全帖

h********3
发帖数: 2075

来自主题: DataSciences版 - 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM

我们现在招做machine learning的学生，基本上都要问到SVM的objective function是
怎么写的。然后如何去optimize这个constrained optimization problem。还有hinge
loss不是smooth的话，实际的svm算法是怎么处理的？优化的时候怎么选择step size等
等。这些知识在CS的machine learning或者data mining里面都会讲，不过是个课堂小
quiz而已。
如果只是知道个大概，几乎所有的面试candidate都知道，那我为什么不招个懂得跟深
入，自己实现过svm的人来做呢？这个行业门槛太低，随涨船高的趋势是很明显的。

h********3
发帖数: 2075

来自主题: DataSciences版 - 为什么要知道DETAILS OF A MACHINE LEARNING ALGORITHM

E**********e
发帖数: 1736

来自主题: DataSciences版 - 一个one-versus-one training的问题

现成的package也包含multiple class SVM啊

：用在svm上的。multi-class classification法对于svm好像很难formulate出被优化的
：objective function。其实linear regression也很难做multi-class，一般只有纯

o******1
发帖数: 1046

来自主题: DataSciences版 - 一个one-versus-one training的问题

多谢多谢！
我又搜了一下，的确有一些基于k-class的单一的objective function方法，比如
Vapnik, Weston & Watkins, Bredensteiner and Bennett。
有一篇16年的文章，比较了各种multi-class svm方法http://www.jmlr.org/papers/volume17/11-229/11-229.pdf。结论是建议把ova和 Weston & Watkins SVM作为default的两种方法。如果考虑计算时间，就用ova；否则WW svm很不错。

v*****a
发帖数: 1332

来自主题: Military版 - 人工智能就是个屁

你看看你像搞科学的人么。。。
我说我“觉得”没有差别。。
纯表述个人观点。。。
你就这样反应。。。
那我问你，SVM怎么用？
如果我把SVM换成linear regression，除了performance下降之外，
系统运行上有什么差别么？
系统还能run么？

v*****a
发帖数: 1332

来自主题: Military版 - 人工智能就是个屁

看什么书啊，你就是看太多了，学得太深，掉进去了。
我没说SVM比LR差。
我的意思是SVM对LR的升级，类似于你把PC里的256内存升到1G
是，工艺很牛B；是，速度快多了；是，跨时代了。
但是！核心还是标准的PC架构，系统上没有差别。。。还是一个PC
现在讨论AI的水平和前景，我觉得要系统构架上的升级才能突破，而不是依靠某个部件
的升级

g*****1
发帖数: 998

来自主题: JobHunting版 - fresh cs master找工作的疑惑以及machine learning的应用问题， (转载)

【以下文字转载自 CS 讨论区】
发信人: guagua1 (), 信区: CS
标题: fresh cs master找工作的疑惑以及machine learning的应用问题，请指点一下！
发信站: BBS 未名空间站 (Sun Oct 25 15:35:24 2009, 美东)
可是做过的project基本就是machine learning在具体问题中的的一些application基本
都是matlab中做的，所有的啥svm阿NN阿不是matlab中自带的functions就是利用比如说
svm-light package之类的，再根据具体问题按照一定procedure找出好参数拉，找好
model阿串起来。
一般cs master准备面试如果像备考那样看数据结构和算法，加上一门c++或java，大概
就是这个样子吧。我觉得即使这些我准备的很好还是有几大硬伤：
1.project没有正经用java或c++做过
2.作的东西也都是把现成的算法试来试去来解决问题，没有什么自己的创新。感觉我做
的东西挺弱的：code没啥技术含量，好像也从未涉及过什么高深的算法或那些很流行的

s******n
发帖数: 21

来自主题: JobHunting版 - 我也来说说我Amazon的onsite经历吧

谢谢大家我面的A组是Ads组, B组是Darwin team, B组的要求上确实写明了DM, ML 和
IR 不过没有引起重视从来也没有看到面经上说这些啊然后我又一心想去ads组结果
完全没有准备当然也没有时间准备时间有限东西太多
说一下dm的问题吧：
如何用decision tree, svm, neural network 来做amazon的product classification
，注意millions of products 和 thousands of attributes 这是典型的
classification问题吧可惜我svm和nn都只在n年以前用过简单的早忘了, decision
tree 也回答的不好
接下来又问如何在user上传的product descriptions中分辨正确/错误拼写，如何分
类：假定没有事先做好的ontology. 这个我是按照Levenshtein distance的思路回答的
结果被穷追猛打很狼狈
接下来又问如何建ontology，比如有人输入canon powershot的desc，有人只输入
po... 阅读全帖

D*******e
发帖数: 151

来自主题: JobHunting版 - 我的面经回馈本版

本人CS Fresh PhD,一般学校,专业机器学习.本人实在是不牛,受益于本版,在此攒人品.
申了Microsoft, Google, LinkedIn, Twitter,eBay,都拿到onsite.去湾区只有三
天,只好放弃T.G家开始说过了hiring committee,但拖到三周多后告诉我挂了.由于过于
自信,本以为会签了,导致没有申到今年的H1B.因此对G家充满怨念.拿到M,L,E的OFFER.
思量之后签了M,RSDEII.
先说我的感想:
1)别老想着做题,起决定作用的还是基本功,思维能力,和状态.我有些朋友横扫各大
公司的,他们都不屑于搜面试题来做.而且总有做不到的题,面试时候的发挥很重要;
2)尽管如此,尽量多的去做些题.重复率还是蛮高的;
3)找工作是不确定性蛮大的事情,保持好的心态,自信.
Twitter：
1) Find the median on N machines;
2) Stream sampling;
3) How to evaluate a classification al... 阅读全帖

n*******w
发帖数: 687

来自主题: JobHunting版 - M 面试问题 (update,

sqrt(N)
二分查找足够快了，更快的话牛顿迭代。
large scale machine learning，SVM，top-10 ＵRL from 0.5Terabytes
没发现这个跟svm有什么关系。就是大批量数据处理问题。
把URL hash到一些小点的块。分块统计就完了。
singly linked list, print in reverse order (keep origin one).
you don't know how large, only know it is big...
(one follow up question is what if there is a loop)
reverse打印应该是递归。有loop先测试，经典的两个指针检测。

G******i
发帖数: 5226

来自主题: JobHunting版 - [合集] 我的面经回馈本版

☆─────────────────────────────────────☆
DyaneWade (姐夫) 于 (Thu Dec 8 02:26:37 2011, 美东) 提到:
本人CS Fresh PhD,一般学校,专业机器学习.本人实在是不牛,受益于本版,在此攒人品.
申了Microsoft, Google, LinkedIn, Twitter,eBay,都拿到onsite.去湾区只有三
天,只好放弃T.G家开始说过了hiring committee,但拖到三周多后告诉我挂了.由于过于
自信,本以为会签了,导致没有申到今年的H1B.因此对G家充满怨念.拿到M,L,E的OFFER.
思量之后签了M,RSDEII.
先说我的感想:
1)别老想着做题,起决定作用的还是基本功,思维能力,和状态.我有些朋友横扫各大
公司的,他们都不屑于搜面试题来做.而且总有做不到的题,面试时候的发挥很重要;
2)尽管如此,尽量多的去做些题.重复率还是蛮高的;
3)找工作是不确定性蛮大的事情,保持好的心态,自信.
Twitter：
1) ... 阅读全帖

h********3
发帖数: 2075

来自主题: JobHunting版 - 电面被羞辱了，求安慰～～～

这个大叔明显是有水平的面试官。SB面试官才只知道问leetcode那些题目。这些题目的
目的明显不是看楼主水平多高，而是鉴别楼主是真正搞系统技术的人，还是非科班背题
的。这些题目跟硬件一点关系没有。这个题目算硬件的话，你让别人学EE的情何以堪？
第一题是高中数学一年级解析几何的课程。machine learning的phd答不上不应该。你
们做SVM的分界面不就是一个超平面吗？SVM最小化的那个w不就是法向量吗。
第二题是考察cache的。你应该回答地址翻译和TLB这些。大学三年级的操作系统课程是
必讲的内容,考研常考的题目之一。
第三题明显是想问你C++虚拟函数内部如何实现，和程序是怎么执行函数的。你应该回
答vtable那个。他就是想知道虚拟函数在C++里面就是一个指针而已。大学二年级的C++
教材似乎没讲这点，但是喜欢搞技术的人肯定都应该向了解”多态“是如何实现的。

g******z
发帖数: 893

来自主题: JobHunting版 - bing面经

主要考概率，machine learning的基本概念，当然还有coding
面试官1：
（1）naive bayes的原理，要求推公式解释
（2）svm的原理，推公式解释。什么是support vector
（3）naive bayes和svm的比较，哪种分别在什么情况下比较好，为什么
（4）kernel function的概念，在什么情况下用
（5）cross-validation的概念，在什么情况下用
面试官2：
（1）一个urn里有red，blue，green三种小球，分别的个数都已知。给一个uniform
random number generator产生[0，1]之间的数，要求写一个function随机选取小球，
选取的概率跟球的分布一致
（2）怎么测试（1）中function的正确性
（3）open question：给一个url的list，可以利用什么信息来对它们进行打分排序（
比如user click的log）。
（4）给若干个url和一个user click的log，问怎么对这些url排序比较合理，给出理由
面试官3：
（1）leetcode OJ的unique p... 阅读全帖

a*****u
发帖数: 1712

来自主题: JobHunting版 - 提供一个full time面经吧，小公司面试比大公司虐多了

除了
聊了下简历的各种project很细，一直问到svm里面支持向量是怎么做判决的，我都是直
和第三面，其他都很常规吧，flg也会面这些啊。
svm那题，如果你面的不是需要research的职位，人家只是问问，试探下你的水平，不
是真的要你都很懂，用libsvm就大大方方的说自己是用libsvm的

a***y
发帖数: 852

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

顶这个，学术圈的state-of-the-art research和工业界的de-facto还是不一样的
但是目的本身也一样，学术界本质目的还是求新知。work的好的但是已经被充分理解的
，或者heuristic没有太大通用意义的发不出来也是正常
classification算法方面我觉得random forest, deep learning, boosting相关的都比
SVM更实用。SVM主要是背后的learning theory牛逼，算法本身已经有点过时了，因为
复杂度高并且本质上是shallow learning，而且不容易fine tune，但是理论不会过时
，因为理论就算暂时解释不了实践，也还是可以持续发展的。
clustering目前无解，因为问题本身定义是模糊的，对任意数据最多能够假设一个
gaussian mixture，也就是用k-means。很多文章也在质疑这个是science 还是 art。
但是可以期待一个好算法帮助选择k-means里面的k，同时又像kmeans本身一样高效。
Bayesian topic modeling可以做这个但感觉没有太大前途。未来... 阅读全帖

a***y
发帖数: 852

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

c********s
发帖数: 12

来自主题: JobHunting版 - 报面筋求实习合租

求实习合租在seattle amazon， from 5.20-8.15. 有兴趣站内联系。
我去年圣诞节开始申请实习。投了大概30多家公司，只有四家公司给了我面试，
linkedin， amazon，discover，bloomberg。作为一个烂校统计phd，找实习的时候还
是挺纠结的。第一个月的时候，我主要投了大公司，招intern的research lab。基
本没有回应。有一个linkedin的lab找我面试，问了很多engineering的问题，就自
然挂了（非马工）。然后很久都没有面试和消息。中途拿到不少据信，连个面试都
没有给我。
到了二月初，我就着急了，连着投了好几个公司包括discover， amazon，还有
bloomberg。 discover 是risk management， amazon是找人内推的research
scientist的实习， bloomberg是quant developer intern。 amazon面试了我3轮，全
部技术面没有任何behavior的题目，最后给了我offer。 discove... 阅读全帖

D***r
发帖数: 7511

来自主题: JobHunting版 - 现在machine learning好像是大把印度人了

本来我还准备了一些比较新的东西，比如deep learning, graphical models啥的
但是他们问的基本都是最基本的模型比如logistic regression, SVM
有个老印还误导我，本来SVM的parameter C越小regularizatioin越强
他自己记错了还说我不对
感觉他们对behavior很重视
你一定要按他们公司制定的那个套路去答

d****y
发帖数: 58

来自主题: JobHunting版 - apple data scientist面经

差不多的话把一般的classification model讲一下就好。
如果相差悬殊的话，其实就比如good, bad.其实算是outlier detection.
那人说用SVM怎么弄，SVM其实是找线，那这个线应该怎么划分？
其实给BAD多一些权重，因为outlier的varaiance会相对大一些。就这么乱说一通就可
以了。因为我也没有做过相应的实验。大致make sense就好了。

a*****h
发帖数: 36

来自主题: JobHunting版 - Machine learning / data science 面经以及一些总结

本着国人互助以及传递正能量的真理，发一下我个人找工作过程中整理的machine
learning相关面经以及一些心得总结。楼主的背景是fresh CS PhD in computer
vision and machine learning, 非牛校。
已经有前辈总结过很多machine learning的面试题(传送门： http://www.mitbbs.com/article/JobHunting/32808273_0.html)，此帖是对其的补充，有一小部分是重复的。面经分两大块：machine learning questions 和 coding questions.
Machine learning related questions:
- Discuss how to predict the price of a hotel given data from previous
years
- SVM formulation
- Logistic regression
- Regularization
- Cost function of neural networ... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天