|
|
c*******e 发帖数: 35 | 3 Kmeans, hierarchical clustering有两种,agglomerative, divisive。Knn不是做
clustering的吧,是classification或者regression。都是supervised。clustering是
unsupervised的。 |
|
z****e 发帖数: 54598 | 4
理论上,是的,math无关任何语言的实现,也无关任何工具
但是hadoop和spark这些是de facto的流行性产品
其他要么你自己去写去,但是一般人没吃那么饱
如果你坚持认为这个叫做modeling的话,不是cs的活的话
那也行,只是一般工作中不会分得那么清楚
如果你要例子的话,spark等工具上来就会用一个叫做word count的做例子
这个就是构建inverted index table的第一步
还有svd, kmeans, svm这些,不都是数学?
更不要说还有sparkR这种,直接朝着统计狂奔而去了
如果你不用这些algorithm,只是用spark来做一点crud的工作的话
我觉得就用nosql的native api就可以了,未必难多少 |
|
s**********1 发帖数: 12 | 5 发一个Apple 数据科学家面经
1. 项目介绍,问了两个简历上的项目
2. 概率的题目,用到了Bayes公式
3. 机器学习各种概念,over fitting, svm 原理, 梯度下降和随机梯度下降的区别,
10fold evaluation
4. 水池抽样实现并证明
5. OOP 概念, 继承,多态
6. 大数据题目,mapReduce的原理, mapper,shuffle, reducer 是怎么工作的, 用
mapreduce实现Kmeans,一步步讲解
7. 算法题,删除链表倒数第N个节点
分享几个准备面试的网站:
http://www.learn4master.com
various examples to algorithms and machine learning
programcreek.com
Leetcode solutions
geeksforgeeks.org
various algorithms |
|
S*********g 发帖数: 5298 | 6 用了matlab的 kmeans和hmmestimate
it |
|
m***e 发帖数: 76 | 7 烙印势力越来越大是因为他们会写算法,会推公式吗?非也,是因为他们中有很多
hiring manager可以一手遮天。类似,白人hiring manager可以把一个不会c++,不会
java,kmeans逻辑都写不清楚的白人女孩定为high potential.为什么我们的同胞要为难
自己人,而且理由是communication problem.
招来一群眼高手低的人那执行工作谁做呢?
欢迎有丰富hiring经验的同胞指点 |
|
w*******e 发帖数: 285 | 8 对同样的data set进行clustering,假设一个用kmean,另外一个用其他方法,都生成
相同数目的clusters,比如说5个。那么怎么比较它们之间的距离?有没有什么标准的
做法?要是用hierarchy clustering生成两颗unordered tree,那么有什么标准的
metric可以比较着两棵树之间的距离呢? |
|
|
l****g 发帖数: 761 | 10 matlab 有内置 kmeans 这个函数
还有 knnclassifier 之类也有 |
|
l*******s 发帖数: 1258 | 11 我觉得kmeans多用于分类,你这个clustering问题 得用其他的em算法 |
|
N******K 发帖数: 10202 | 12 OpenCV 的kmeans 只支持float 谁设计的? |
|
N******K 发帖数: 10202 | 13 总不能因为kmeans 就把所有数值都改为float 削足适履
最后我就自己写了一个 |
|
j*****n 发帖数: 1545 | 14 我想找一个解x, min(f(x)),同时 max (h(x))。 当然可以把max(h(x))转化为 min(h'
(x)), 就变成了同时最优化两个方程的问题。
这种问题怎么解,我感觉应该可以变成 constrained optimization 来搞。或者能不能
弄成 迭代求解, 比如每次循环的时候,先min(f(x))再min(h'(x)) ,像 kmeans, EM那
种思想。
大家给点意见吧,谢谢 |
|
|
m*p 发帖数: 1331 | 16 kmean和传统clustering都是把相似的放在一起。我说的这个问题正好相反,有点象
portfolio里面,要把不同的asset放在一起才能减少var。好像我说的这个是个新问题? |
|
mw 发帖数: 525 | 17 好奇的帮你顶一下:为什么你认为kmeans在trading里面有应用呢? |
|
S******y 发帖数: 1123 | 18 I am wondering if anybody here have a simple example in R for Naive
Bayes.
For example, I can do k-means clustering on the "iris" data -
data(iris)
cl <- kmeans(iris[,1:4], 3)
cl$cluster
cbind(1:150,iris$Species)
===========
But how to do Naive Bayes classification in the same "iris" data?
Many thanks! |
|
i********f 发帖数: 206 | 19 我有一些数据,例如
x y
[1,] 0.010313070 -0.02893566
[2,] 0.245346732 0.31654765
[3,] 0.549282428 -0.15341703
[4,] -0.208582213 0.29955670
我想把他们分成两组.
> cl <- kmeans(dist,2)
如果我想固定K-means的起始点,让他们分别是([1,] 0.010313070 -0.02893566)和([2
,] 0.245346732 0.31654765),应该怎么写k-means中那个centers的参数呢? 多谢 |
|
o****o 发帖数: 8077 | 20 use centers= argument in the kmeans function
2 vectors will result in 2 clusters |
|
o****o 发帖数: 8077 | 21 use rbind to stack the two vectors:
#--------------------
> x = read.table("clipboard",sep=' ', as.is=T, header=F) #read in sample
data
> c1<-c(0.010313070, -0.02893566)
> c2<-c(0.245346732, 0.31654765)
> kmeans(x, centers=c(c1, c2))
K-means clustering with 2 clusters of sizes 3, 1
Cluster means:
V1 V2
1 0.01569253 0.1957229
2 0.54928243 -0.1534170
Clustering vector:
[1] 1 1 2 1
Within cluster sum of squares by cluster:
[1] 0.1789207 0.0000000
Available components:
[1] "clust |
|
w*****n 发帖数: 375 | 22 We can only generate 2D or 3D plots, not 46D.
You can consider principle component analysis
|
|
l*****k 发帖数: 587 | 23 thanks, did try pca, I just realized for doing the plot
it is only good for 2 or 3 variable matrix. |
|
g********r 发帖数: 8017 | 24 stats里面也有个kmeans好像不慢.
我说得内存问题就是这个意思:一个5000x32占几十M而已.如果随机生成的矩阵每次算完
就删除,有没有内存泄露,应该用不
到多少内存.
uniform
for
R |
|
|
l*********s 发帖数: 5409 | 26 Hierarchical shall be much faster based on its complexity. |
|
c********h 发帖数: 330 | 27 clustering没有局限于one-dim啊,这个可以用各种clustering的method, kmeans,
mixture EM都可以是multi-dim
如果你想用correlation as a distance,你可以用hierarchical clustering,这个可
以自己specify distance.
每一种clustering也都可以specify number of clusterings |
|
A**H 发帖数: 4797 | 28 谢谢
我根据这里的方法做的clustering
http://www.statmethods.net/advstats/cluster.html
用的其中的Partitioning这一节,我得到了一个"Within groups sum of squares"
versus "Number of Clusters" plot. 从这个plot里面我选了clusters = 5,然后做下面
fit <- kmeans(mydata, 5) # 5 cluster solution
# get cluster means
aggregate(mydata,by=list(fit$cluster),FUN=mean)
# append cluster assignment
mydata <- data.frame(mydata, fit$cluster)
我得到了哪个项目应该归到哪一类里面
感觉到这里,似乎就已经做完了。。。。。我知道了哪些项目应该编排到一起
然后,我再根据下面这个
http://www.stat.columbia.edu/~martin/W2024/R3.pdf
做anov... 阅读全帖 |
|
f*******a 发帖数: 663 | 29 原帖见
http://www.mitbbs.com/article_t/DataSciences/6761.html
一点分析心得,与大家共享,以期抛砖引玉。
感谢zhaoce的总结一文让我看到这篇文章;也非常感谢f0008朋友在我始终无法下载附
件的情况下把附件发给了我。
===========================================================================
聚类算法能利用的一般是局部特性,如邻域点距离、基于核函数的密度估计。Mean-
shift算法就是一个非常经典的算法,以梯度方法迭代至局部密度峰值点。
这个算法的思路其实与Mean-shift很类似,虽然作者要在文章中反复说和Mean-shift不
一样,但本质上非常相近。MS以梯度寻找峰值点,而这个算法则是直接在点群中搜索峰
值点。这样做是基于一个近似假设:峰值点和点群中的某点距离不远。举个极端的例子
:只有一类,20个点均匀分布在一个圆上。MS算法可以准确聚到圆心,只要核大小足够
。而这个算法,只能聚在这20个点中的某个点上。这个假设在一般情况下可以接受,也
能... 阅读全帖 |
|
l****g 发帖数: 761 | 30 我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标 题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Le... 阅读全帖 |
|
l****g 发帖数: 761 | 31 我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标 题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Le... 阅读全帖 |
|
g*****o 发帖数: 812 | 32 我的意思是说经常有分类效果不好的情况啊,不说kmeans,svm也会有训练出来的参数
不能很好对检验集分类的情况。 |
|
s***h 发帖数: 26 | 33 kmeans和hierarchical clustering |
|
M*P 发帖数: 6456 | 34 貌似很多方法比如SVM,Kmeans都在MLlib里实现了,但是具体是什么算法,连个
reference都没给。
有没有什么书综述这些算法的? |
|