由买买提看人间百态

topics

全部话题 - 话题: kmeans
首页 上页 1 2 (共2页)
j*******g
发帖数: 79
1
参考一下Kmean就行了
应该是kd-tree
g*********e
发帖数: 14401
2
来自主题: JobHunting版 - 有什么常考的cluster algorithm么?
knn kmeans ?
c*******e
发帖数: 35
3
来自主题: JobHunting版 - 有什么常考的cluster algorithm么?
Kmeans, hierarchical clustering有两种,agglomerative, divisive。Knn不是做
clustering的吧,是classification或者regression。都是supervised。clustering是
unsupervised的。
z****e
发帖数: 54598
4
来自主题: JobHunting版 - 今天开始继续刷leetcode

理论上,是的,math无关任何语言的实现,也无关任何工具
但是hadoop和spark这些是de facto的流行性产品
其他要么你自己去写去,但是一般人没吃那么饱
如果你坚持认为这个叫做modeling的话,不是cs的活的话
那也行,只是一般工作中不会分得那么清楚
如果你要例子的话,spark等工具上来就会用一个叫做word count的做例子
这个就是构建inverted index table的第一步
还有svd, kmeans, svm这些,不都是数学?
更不要说还有sparkR这种,直接朝着统计狂奔而去了
如果你不用这些algorithm,只是用spark来做一点crud的工作的话
我觉得就用nosql的native api就可以了,未必难多少
s**********1
发帖数: 12
5
来自主题: JobHunting版 - Apple 数据科学家面经
发一个Apple 数据科学家面经
1. 项目介绍,问了两个简历上的项目
2. 概率的题目,用到了Bayes公式
3. 机器学习各种概念,over fitting, svm 原理, 梯度下降和随机梯度下降的区别,
10fold evaluation
4. 水池抽样实现并证明
5. OOP 概念, 继承,多态
6. 大数据题目,mapReduce的原理, mapper,shuffle, reducer 是怎么工作的, 用
mapreduce实现Kmeans,一步步讲解
7. 算法题,删除链表倒数第N个节点
分享几个准备面试的网站:
http://www.learn4master.com
various examples to algorithms and machine learning
programcreek.com
Leetcode solutions
geeksforgeeks.org
various algorithms
S*********g
发帖数: 5298
6
来自主题: Stock版 - 贴一个业余时间做的练习
用了matlab的 kmeans和hmmestimate

it
m***e
发帖数: 76
7
烙印势力越来越大是因为他们会写算法,会推公式吗?非也,是因为他们中有很多
hiring manager可以一手遮天。类似,白人hiring manager可以把一个不会c++,不会
java,kmeans逻辑都写不清楚的白人女孩定为high potential.为什么我们的同胞要为难
自己人,而且理由是communication problem.
招来一群眼高手低的人那执行工作谁做呢?
欢迎有丰富hiring经验的同胞指点
w*******e
发帖数: 285
8
对同样的data set进行clustering,假设一个用kmean,另外一个用其他方法,都生成
相同数目的clusters,比如说5个。那么怎么比较它们之间的距离?有没有什么标准的
做法?要是用hierarchy clustering生成两颗unordered tree,那么有什么标准的
metric可以比较着两棵树之间的距离呢?
T**********n
发帖数: 480
9
kmeans之后不是要跑个最近邻测准确率么?
l****g
发帖数: 761
10
matlab 有内置 kmeans 这个函数
还有 knnclassifier 之类也有
l*******s
发帖数: 1258
11
来自主题: CS版 - 求助关于聚类问题
我觉得kmeans多用于分类,你这个clustering问题 得用其他的em算法
N******K
发帖数: 10202
12
来自主题: Programming版 - 现在还有哪些大公司用c++比较多
OpenCV 的kmeans 只支持float 谁设计的?
N******K
发帖数: 10202
13
来自主题: Programming版 - 现在还有哪些大公司用c++比较多
总不能因为kmeans 就把所有数值都改为float 削足适履
最后我就自己写了一个
j*****n
发帖数: 1545
14
来自主题: Computation版 - 问个optimization 的问题
我想找一个解x, min(f(x)),同时 max (h(x))。 当然可以把max(h(x))转化为 min(h'
(x)), 就变成了同时最优化两个方程的问题。
这种问题怎么解,我感觉应该可以变成 constrained optimization 来搞。或者能不能
弄成 迭代求解, 比如每次循环的时候,先min(f(x))再min(h'(x)) ,像 kmeans, EM那
种思想。
大家给点意见吧,谢谢
b*****g
发帖数: 919
m*p
发帖数: 1331
16
kmean和传统clustering都是把相似的放在一起。我说的这个问题正好相反,有点象
portfolio里面,要把不同的asset放在一起才能减少var。好像我说的这个是个新问题?
mw
发帖数: 525
17
好奇的帮你顶一下:为什么你认为kmeans在trading里面有应用呢?
S******y
发帖数: 1123
18
来自主题: Statistics版 - How to do Naive Bayes in R?
I am wondering if anybody here have a simple example in R for Naive
Bayes.
For example, I can do k-means clustering on the "iris" data -
data(iris)
cl <- kmeans(iris[,1:4], 3)
cl$cluster
cbind(1:150,iris$Species)
===========
But how to do Naive Bayes classification in the same "iris" data?
Many thanks!
i********f
发帖数: 206
19
来自主题: Statistics版 - 请教一个R:K-means的问题
我有一些数据,例如
x y
[1,] 0.010313070 -0.02893566
[2,] 0.245346732 0.31654765
[3,] 0.549282428 -0.15341703
[4,] -0.208582213 0.29955670
我想把他们分成两组.
> cl <- kmeans(dist,2)
如果我想固定K-means的起始点,让他们分别是([1,] 0.010313070 -0.02893566)和([2
,] 0.245346732 0.31654765),应该怎么写k-means中那个centers的参数呢? 多谢
o****o
发帖数: 8077
20
来自主题: Statistics版 - 请教一个R:K-means的问题
use centers= argument in the kmeans function
2 vectors will result in 2 clusters
o****o
发帖数: 8077
21
来自主题: Statistics版 - 请教一个R:K-means的问题
use rbind to stack the two vectors:
#--------------------
> x = read.table("clipboard",sep=' ', as.is=T, header=F) #read in sample
data
> c1<-c(0.010313070, -0.02893566)
> c2<-c(0.245346732, 0.31654765)
> kmeans(x, centers=c(c1, c2))
K-means clustering with 2 clusters of sizes 3, 1
Cluster means:
V1 V2
1 0.01569253 0.1957229
2 0.54928243 -0.1534170
Clustering vector:
[1] 1 1 2 1
Within cluster sum of squares by cluster:
[1] 0.1789207 0.0000000
Available components:
[1] "clust
w*****n
发帖数: 375
22
来自主题: Statistics版 - R kmeans issue, plot result
We can only generate 2D or 3D plots, not 46D.
You can consider principle component analysis





l*****k
发帖数: 587
23
来自主题: Statistics版 - R kmeans issue, plot result
thanks, did try pca, I just realized for doing the plot
it is only good for 2 or 3 variable matrix.
g********r
发帖数: 8017
24
来自主题: Statistics版 - k means clustering number
stats里面也有个kmeans好像不慢.
我说得内存问题就是这个意思:一个5000x32占几十M而已.如果随机生成的矩阵每次算完
就删除,有没有内存泄露,应该用不
到多少内存.

uniform
for
R
o****o
发帖数: 8077
25
来自主题: Statistics版 - k means clustering number
someone posted a sample non-optimized R code:
http://www.stat.rutgers.edu/~rebecka/RCode/gappcalg.q
but you can use the kmeans function in R to get within cluster variation
swiftly.
l*********s
发帖数: 5409
26
Hierarchical shall be much faster based on its complexity.
c********h
发帖数: 330
27
clustering没有局限于one-dim啊,这个可以用各种clustering的method, kmeans,
mixture EM都可以是multi-dim
如果你想用correlation as a distance,你可以用hierarchical clustering,这个可
以自己specify distance.
每一种clustering也都可以specify number of clusterings
A**H
发帖数: 4797
28
谢谢
我根据这里的方法做的clustering
http://www.statmethods.net/advstats/cluster.html
用的其中的Partitioning这一节,我得到了一个"Within groups sum of squares"
versus "Number of Clusters" plot. 从这个plot里面我选了clusters = 5,然后做下面
fit <- kmeans(mydata, 5) # 5 cluster solution
# get cluster means
aggregate(mydata,by=list(fit$cluster),FUN=mean)
# append cluster assignment
mydata <- data.frame(mydata, fit$cluster)
我得到了哪个项目应该归到哪一类里面
感觉到这里,似乎就已经做完了。。。。。我知道了哪些项目应该编排到一起
然后,我再根据下面这个
http://www.stat.columbia.edu/~martin/W2024/R3.pdf
做anov... 阅读全帖
f*******a
发帖数: 663
29
来自主题: DataSciences版 - Science上新clustering算法的分析测试
原帖见
http://www.mitbbs.com/article_t/DataSciences/6761.html
一点分析心得,与大家共享,以期抛砖引玉。
感谢zhaoce的总结一文让我看到这篇文章;也非常感谢f0008朋友在我始终无法下载附
件的情况下把附件发给了我。
===========================================================================
聚类算法能利用的一般是局部特性,如邻域点距离、基于核函数的密度估计。Mean-
shift算法就是一个非常经典的算法,以梯度方法迭代至局部密度峰值点。
这个算法的思路其实与Mean-shift很类似,虽然作者要在文章中反复说和Mean-shift不
一样,但本质上非常相近。MS以梯度寻找峰值点,而这个算法则是直接在点群中搜索峰
值点。这样做是基于一个近似假设:峰值点和点群中的某点距离不远。举个极端的例子
:只有一类,20个点均匀分布在一个圆上。MS算法可以准确聚到圆心,只要核大小足够
。而这个算法,只能聚在这20个点中的某个点上。这个假设在一般情况下可以接受,也
能... 阅读全帖
l****g
发帖数: 761
30
我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标 题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Le... 阅读全帖
l****g
发帖数: 761
31
我也负责我们组ML面试, 我对你的出题很难苟同
你出的这些题背得怎么熟,如果我要solve一个 PB level data problem, 怎么用?
所以我就不拍了,以前有个贴总结的挺好我就直接贴过来吧:
发信人: Algorithmic (Zeal), 信区: JobHunting
标 题: Re: 为什么你么都说现在招聘走做题路线
发信站: BBS 未名空间站 (Mon Dec 23 17:31:14 2013, 美东)
本来我是带着娱乐的态度来回帖的,但是既然碰到了大牛,请educate我。
请告诉我任意一个数据结构,比inverted list 更重要,并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model,比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Le... 阅读全帖
g*****o
发帖数: 812
32
我的意思是说经常有分类效果不好的情况啊,不说kmeans,svm也会有训练出来的参数
不能很好对检验集分类的情况。
s***h
发帖数: 26
33
来自主题: DataSciences版 - 请问常考的cluster algorithm有哪些
kmeans和hierarchical clustering
M*P
发帖数: 6456
34
来自主题: DataSciences版 - 哪里有基于sparks的算法的书?
貌似很多方法比如SVM,Kmeans都在MLlib里实现了,但是具体是什么算法,连个
reference都没给。
有没有什么书综述这些算法的?
首页 上页 1 2 (共2页)