关于kmeans的讨论汇总 - 话题女王

s***c
发帖数: 1926

10^8并不大，一张D800的照片就36M个象素，各种算法笔记本都跑得飞快.
试试 Mini Batch Kmeans
http://scikit-learn.org/stable/modules/clustering.html#mini-batch-kmeans

l*****k
发帖数: 587

来自主题: Statistics版 - R kmeans issue, plot result

if I try to do kmeans cluster on a data matrix of dim 89, 46

kmean2 <- kmeans(x, 2, 50)

then try to plot the result

plot(x, col=kmean2$c

Q*****r
发帖数: 234

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

Spark Stream kmeans

发帖数: 1

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

Lol你是垃圾超酸集群的话还要自己写mpi
不知道哪里买得到spark hadoop集群然后直接套kmean就好了lol
找你么学校计算机系搞跑spark/ Hadoop 个分布式集群的实验室让他们呢跑

发帖数: 1

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

mapreduce 就是google来处理这种海量维度的矩阵的。
kmeans mapreduce

：客户要求就是这样
：

s***c
发帖数: 1926

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

刚才查了下，这人用R自带的rxKmeans，在2011年的笔记本上跑123 million的7维数据
，才用6分钟。什么特殊方法都不用。
http://blog.revolutionanalytics.com/2011/06/kmeans-big-data.html
Finally, just for fun, I ran the rxKmeans on the 123 million plus row
airlines data set that I have described in a previous blog post looking for
2 clusters in a 7 dimensional space described by departure time, arrival
time, air time, arrival delay, departure delay, taxi in time and taxi out
time. I have no idea how to interpret the results, but the calculation ra... 阅读全帖

v*******e
发帖数: 133

来自主题: Statistics版 - Urgent: Hierarchical / Kmeans Clustering Analysis in R 哪个更快？

有人在R里面做过Cluster Analysis?
数据很大，Hierarchical or Kmeans 哪个更快？原因是什么？
Is there any option in R about cluster analysis to have the analysis run
faster?
在线等。。

C***o
发帖数: 68

来自主题: Statistics版 - Urgent: Hierarchical / Kmeans Clustering Analysis in R 哪个更快？

今天刚在R里作了一个kmean()。13万数据加300多的变量，很快。当然机器配置非常好
。

j*x
发帖数: 574

来自主题: Statistics版 - isodata and kmean

http://www.mathworks.com/matlabcentral/fileexchange/5324-kmeans
有牛人可以解释一下function里的 X, Y, k, L, I, ON, OC, OS, NO, min是啥意思吗
？多谢！

z****e
发帖数: 54598

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

我就说嘛，老是做这种算术操作，迟早被人骂
猴屁股这种level就没那么容易忽悠
最好的方式干脆对比kmeans，用mllib做一次kmeans
然后对比全部跑在ram上的hdfs的kmeans
那个应该可以用scala做一定程度上的优化
就是coltzhao说的那些优化手段

w***g
发帖数: 5958

来自主题: Programming版 - 已经全上内存了，还要40多秒啊

我专门研究过kmeans，kmeans在某些情况下是可以达到CPU/硬盘吞吐量的平衡的。
因为kmeans需要算nearest neighbor，计算量随着维度和k的上升而上升。上升
到一定的程度就可以和磁盘吞吐量达到平衡(~100MB/disk/second)。这时候就可以
用out-of-core的算法来实现，内存大小不会成为瓶颈。我还写过MPI代码做这个事情。
不过我估计我的代码在机群上可能也干不过spark。MPI同步那块死慢，有一半时间
在同步数据，算得再快也没用。

l*******m
发帖数: 1096

来自主题: Programming版 - 卫东，怎么用DL做clustering？

DL算法有两点特点，第一是minibatch parameter update, 第二是autodiff, backprop
如果用kmeans, 是有一种minibatch算法的，sklearn就有实现。但是kmeans的目标函数
是不可到的。如果用soft decision的kmeans, 则是可导的。不过这就是mixed
Gaussian，其本质和前一段大火的vae是一样。就是用minibatched backprop做
variational inference

i********f
发帖数: 206

来自主题: Statistics版 - 请教一个R:K-means的问题

在用Kmeans的时候,有人会用dist处理matrix,然后再输入到Kmeans,
有人好像直接就用最初的matrix,直接运行Kmeans
这两个有什么区别么,对最后的结果而言

h***x
发帖数: 586

来自主题: Statistics版 - Sample size for clustering analysis

Use Varclus (SAS) and PCA to do variable reduction first before running
clustering. When you only have 10-20 variables, you won't JiuJie to ask the
sampling strategies.
I do not like kmeans. Everytime when I reset the seeds, or even reorder the
dataset, and I will have different results, but the pros is I can get the
results I desire after trying and trying... Not sure if it is kind of
cheating...
Non-parameter clustering (modeclus) is a better choice most of the time. It
can handle the situati... 阅读全帖

c****m
发帖数: 179

来自主题: JobHunting版 - a公司 onsite 面试题

是要把动物分成两部分，分别用一个pipe吗？如果是这样的话，就是weighted
kmeans.是NPC，kmeans能给近似解。

s******t
发帖数: 229

来自主题: JobHunting版 - 发几家面经（Bloomberg, Amazon, Epic, Microsoft, Zillow），

代码其实挺简单的，就是编一个combination的algorithm。kmeans那种方法我就不编了
啊，kmeans算法满大街都是
sse=Sum of Squares Error
int min=MAX
void combination(int n, int k, Stack stack, int len) {
if (stack.size() == len) {
if (min > sse(stack, distance_matrix)) {
result = stack;
}
return;
}
if (n < k || k < 1) {
return;
}
stack.add(n);
combination(n - 1, k - 1, stack, len);
stack.pop();
combinati... 阅读全帖

s*****n
发帖数: 134

来自主题: CS版 - 求助关于聚类问题

Kmeans 是很适合你要求的算法，Matlab的统计工具包里也有现成的函数。这里是注解
和用法 http://www.mathworks.com/help/toolbox/stats/kmeans.html，
另外也可以参考Hierarchical Clustering, http://www.mathworks.com/help/toolbox/stats/bq_679x-3.html
聚类的原则可以是欧式距离，也可以是1-correlation 之类不同的metric, 函数pdist
可以很方便的算出不同Metric下一组数据点两两之间的距离。
平均分类虽然表面上看起来很工整，但事实上并不一定有很好的实际意义和根据。如果
你用上面两个模型做出来的结果不同的cluster之间元素数目差距很大，也就说明原来
的数据分布并不太平均，不是吗？

w***g
发帖数: 5958

来自主题: Programming版 - 再晒个我的开源NoSQL项目

目前这个不是基于LSH的，而是用的KGraph。LSH和KGraph各有优缺。KGraph精度较高，
但是难以用精度换速度。LSH可以做得超快，但是精度较低。我已经找到一个愿意实现L
SH的同学了。计划把LSH也加进去，然后把索引做成可配置。我自己也研究过LSH，LSHK
IT就是我写的，有一些现成的LSH代码可以用，实现上应该没啥问题。刚才还收到
另一个对集群感兴趣的，不知道是不是你。K-NN搜索计算量太大，用集群来提高吞吐
量还可以，如果数据量大到要用机群来提高单个查询的速度，那吞吐量势必会非常低，
并由此导致各种稳定性问题。除非你每个查询能卖一笔钱，不然成本太大，可能会得不
尝失。
你那篇paper我认为很经典。L2 distance的话kmeans就是比以前那些基于random proje
ction的LSH要强（也就等于在很大程度上否认了之前LSH相关的研究）。这就是随机算法
和基于训练的算法的本质差异。
我这里有个Benchmark你可以看眼。KGraph比kmeans还快。KGraph目前没有开源，当初
想卖钱的，所以代码也按不开源的方式写了，为此还有一些速度上的损失。如... 阅读全帖

M*******g
发帖数: 41

来自主题: Statistics版 - 还是run SVM的问题

建议你用Jordan 他们的办法。
http://www.cs.berkeley.edu/~jordan/fasp.html
先用kmeans()聚类压缩数据，比如得到1000个类簇；
然后在前一步kmeans()得到的1000个类簇中心上运行SVM；
最后属于同一个类簇的所有点得到相同的label，也就是各
个类簇中心的label。
我前一段时间有一个很大的数据，50多万个点，20个特征，
需要运行谱聚类(spectral clustering)，结果他们的算法
五分多钟就算完了。虽然他们的算法是聚类问题，
你是分类问题但是原理应该差不多。

g**1
发帖数: 10330

来自主题: Military版 - NVIDIA、京东战略合作：联手人工智能zt

NVIDIA、京东战略合作：联手人工智能
2
在今天举办的GPU中国技术大会上，NVIDIA、京东集团宣布达成战略合作，并共建联合
实验室，在人工智能领域展开紧密合作，共同加速智能电商时代的到来。
NVIDIA针对深度学习、自动驾驶等领域已经推出了大量针对性的高性能GPU产品、软件
和工具，目前国内外绝大多数深度学习企业和机构都在借助NVIDIA GPU进行加速，包括
Facebook、Google、阿里巴巴、百度等互联网巨头。
而京东不仅拥有核心的交易、仓库管理、物流配送管理等电商平台技术，还在进行大量
的前沿技术研发和应用，包括深度学习、人工智能、图像识别等，并且已经成立了DNN
深度神经网络实验室、PCL感知认知实验室。
此次双方达成战略合作，旨在人工智能技术研发领域展开更深入的合作，从而推动京东
在VR/AR、智能硬件、智慧物流等人工智能战略的推进。
两家公司还将在深度学习模型优化方面展开深入合作，技术团队将在京东内部推广模型
(前向)优化方案，京东将借助NVIDIA深度学习的技术优势和在研发环节技术团队的支持
，进一步优化包括实时服务在内的业务应用系统，并GPU集群的深度学习... 阅读全帖

s**********l
发帖数: 8966

来自主题: Military版 - 统计其实是AI里面最不入流的

你是说只有unsupervised才算ml么？
那kmeans也算吧

：现在的一些个ML方法，什么random forest，knn之流，其实早期根本算不上AI，只不
过现在大锅烩拉进来，其实狗屁学习的概念都没有，就一个parameter fitting。核心用
：的优化方法。统计做了个壳。操，垃圾。

g******t
发帖数: 11249

来自主题: Military版 - 学校超算10几T的内存，咋也会OOM ？

程序也不复杂
一亿个点跑kmeans
跑了一个周末，今早被管理员杀了
这玩意容易改成并行程序么

g******t
发帖数: 11249

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

客户要求就是这样
不能改

发帖数: 1

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

换客户。。。。。。。。

s*****l
发帖数: 7106

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

Map reduce

b****u
发帖数: 1130

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

load 一亿个点不是问题，问题是距离矩阵。
把距离矩阵按照行或则列分为 100份。每一份有10^ 6个点到其他点的距离。这样就可
以一部分一部分做运算。

发帖数: 1

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

不是有recursively compute variance and means 的办法吗。这不是很通用的做法
吗。为啥这是个问题

s******r
发帖数: 5309

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

k-d tree

n********g
发帖数: 6504

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

LZ应该先学一下初中课程，啥叫大O。
格子由大到小。问题由粗到细。

发帖数: 1

来自主题: Military版 - 10^8个点如何跑kmeans，求建议

Spark

发帖数: 1

来自主题: Military版 - 哈佛学生的平均智商还不如山大！

啥算法?
kmeans么

：暑假找了个高中生
：

f*****w
发帖数: 52

来自主题: JobHunting版 - 发个A公司的面经

这就是我被问的第一个问题。。。。我是说说优化所有雇员去最近站点的距离的和。貌
似人家的意思要用什么kmeans聚类分析，我虽然学过，但是全忘光了。我就说可以用遗
传算法优化。。。。

M********l
发帖数: 22

来自主题: JobHunting版 - 某家onsite面经

职位SDE
1. 印度女senior SDE manager: Matrix, 每列和每行都sorted好，找target number
（career cup 150上原题）
她当时很赶，说9点半要开会，安排的太匆忙，我当时没写完代码，说要面试之后把代
码发给她，不过idea我说清楚了
2.中国人：人很nice，问了两个简单的问题：
1.如何用1/3的随机数generator，生成1/7的随机数generator
2. 如何sort电话号码10 billion个， follow up，如果memory只有2mb怎么办
没让写代码，只说idea就行
3. 中国人，貌似是个group manager
因为我phd做的和data mining有关，他就问我知不知道kmeans算法，然后要求写代码实
现，代码我还是没写完。。。（我白板写代码能力还有待提高）
4. 印度男，面试+吃饭
貌似对我一开始印象不好，问了一个从数列中找和最大的子序列，也是150原题了，我
说完idea就去吃饭了
吃饭的时候一直不是很relax，因为他一直在问问题（之前看过很多onsite面经都说吃
饭不问问题的，弄得我... 阅读全帖

s*******r
发帖数: 2697

来自主题: JobHunting版 - 发几个面经(5) Groupon 电面+onsite

尽管第一个onsite是twitter给的
groupon却是我第一个去onsite的公司过程也是所有面试的公司中最漫长的
面完groupon心态彻底变平和了再面任何其他公司也都不会再觉得折腾了
总共面了 10个人 onsite前两轮电话+ onsite 5个人 + onsite后3轮电话
面试的过程中要去的组因为内部人re-org被强塞了几个人 offer自然也没了
电面
p1 主要面data mining，毕竟宽泛，考察到了
1) measures of classification
2) boundary decision for classification
3) Feature selection
4)Entrophy,TF,IDF
5) coding 给定query 打印出所有match的combination
// Query = dress for less
// Expansion: "dress:[es, ed, ing] for less:(cheap, deal)"
/*
dress for less
dress for cheap
d... 阅读全帖

r**h
发帖数: 1288

来自主题: JobHunting版 - wlab电面面经，攒rp

三哥，口音很重
给一堆feature和label，如何用logistic regression求一个classifier
overfit如何处理
解释一下KMeans？
GMM如何估计参数？
是否用过矩阵分解
不同regularizer的异同和作用
编程题：反转链表
概率题：一个人喝醉的人往前走的概率是p，往前一步就要摔倒，但是可以后退
请问他摔倒的概率有多少
感觉答得一般，估计要跪了，求bless

A*********c
发帖数: 430

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

本来我是带着娱乐的态度来回帖的，但是既然碰到了大牛，请educate我。
请告诉我任意一个数据结构，比inverted list 更重要，并且广泛地应用到了实际的
text retrieval system中.
请告诉我任意一个document retrieval model，比vector space model 或者 Okapi
BM25, Statistically significantly better for general purpose document
retrieval. Either implemented in Lucene or Lemur.
请告诉我任意一个clustering algorithm，other than Kmeans，will be your safe
first choice of clustering when you see some arbitrary data.
对于Classification，Old Stuff Like KNN works well in many cases. Kernel
algorithms are go... 阅读全帖

A*********c
发帖数: 430

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

a***y
发帖数: 852

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

顶这个，学术圈的state-of-the-art research和工业界的de-facto还是不一样的
但是目的本身也一样，学术界本质目的还是求新知。work的好的但是已经被充分理解的
，或者heuristic没有太大通用意义的发不出来也是正常
classification算法方面我觉得random forest, deep learning, boosting相关的都比
SVM更实用。SVM主要是背后的learning theory牛逼，算法本身已经有点过时了，因为
复杂度高并且本质上是shallow learning，而且不容易fine tune，但是理论不会过时
，因为理论就算暂时解释不了实践，也还是可以持续发展的。
clustering目前无解，因为问题本身定义是模糊的，对任意数据最多能够假设一个
gaussian mixture，也就是用k-means。很多文章也在质疑这个是science 还是 art。
但是可以期待一个好算法帮助选择k-means里面的k，同时又像kmeans本身一样高效。
Bayesian topic modeling可以做这个但感觉没有太大前途。未来... 阅读全帖

a***y
发帖数: 852

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

另外，从实用技术考虑来讲
如果kmeans不知道如何指定K，可以用Hierarchical clustering。复杂度高但是一次能
得到整个hierarchy。可以从中选择合适的cluster粒度。X-means指定K的方法没有用过
，不过好像比较流行。我需要去看一看。。。
KNN最大的瓶颈是O(n) complexity。但是KNN的solution space其实是对空间的voronoi
划分。random forest本质上也是对空间的划分。应该是取代KNN最理想的直接选择。

a***y
发帖数: 852

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

a***y
发帖数: 852

来自主题: JobHunting版 - 为什么你么都说现在招聘走做题路线

u*****o
发帖数: 1224

来自主题: JobHunting版 - Tower research 面经+ 扭腰一日游

答完这凶残的笔试后已经11点多了，我以为要去吃饭了。结果HR说下一个面试官马上来
。一会一个三哥风风火火的进来，拿着我的卷子说，咱们go over吧。我当时就眼前一
黑。。。
尤其是碰到mutex的题，他让我找deadlock，我吭吭哧哧找不到。三哥非常恼火，说你
找不到写在那干嘛呀。我又囧又急，根本focus不了，三哥在我旁边画小人和小汽车。
。。最后我瞎说到，两个pop function thread肯定要抢lock, 就僵局了，三哥就彻底
对我放弃治疗了。。。。
和HR一起吃饭时看来来往往的都是男的，我说你们有女trader吗，他说不算support
staff(accounting和hr)的话，就一个。。>_< 偶说我说下午还有几轮，他说至少一轮
。。我还挺高兴的，想一轮完了还应该挺早，我再去时代广场转转，还有法拉盛的羊肉
串和麻辣烫，几年前来时给我留下美好的印象。。所以我给自己打气，虽然笔试的很失
败，还跟自己说，不要想自己是一个生物女博士在面完全不熟悉的金融职位，而是萱萱
扮演的皇家大律师要上庭了，要踌躇满志，要积极自信，要意气风发，输人不输阵, 要
尽力面完这最后一轮就去... 阅读全帖

f*****e
发帖数: 2992

来自主题: JobHunting版 - 贡献个题

kmeans

n****o
发帖数: 41

来自主题: JobHunting版 - 贡献个题

多谢！
但kmeans首先不能保证得到全局最优，其次最坏的时间复杂度很大。。
我觉得如果只建一个仓库的话，用下面这个链接的方法可以（当然要用一范数距离）
http://stackoverflow.com/questions/9651921/find-the-a-location-
多个仓库的话或许有推广的方法

p*u
发帖数: 136

来自主题: JobHunting版 - 贡献个题

牛！
我后来想也是k-means，就只有这个最合适了。被问到这个只能抓瞎了。不是搞ML这一
块的，也就几年前看过一本集体智慧编程。建议要面试的同学们，准备下相关的知识点。
实际上题目简化为网格后，m个小区，坐标分别为(x[i], y[i])，就建1个仓库的话，仓
库的坐标应该是（中位数[x], 中位数[y]）
做kmeans或者算若干个小区的中心的时候，都用曼哈顿距离。

k****s
发帖数: 16

来自主题: JobHunting版 - G家面试题，怎样答面试官才能满意？

kmeans 肯定不work啊。 mean用不了，还有障碍物。
距离肯定得用A* search吧.
我觉得应该
1. 选个好初始点
2. 算出到各个器材的距离（用A*）
3. 然后新的cost function是到所有器材距离的和。
4. 再看4个可移动的方向哪个可以减少cost function （新的距离应该不需要重新计算）
5. repeat 4，直到cost function不减少，则停止。
应该不保证收敛到全局最优。

j*******t
发帖数: 223

来自主题: JobHunting版 - Hama是怎么一回事？

Hama是基于BSP计算框架的（Pregel和对应的开源版本Giraph也是基于BSP的）。BSP框
架在80年代由Leslie Valiant等人提出（2010年图灵奖得主）。与MapReduce相比，BSP
更适用于迭代式计算。
一个典型的基于BSP的程序分为多个iteration，其中每个iteration包含Local
computation，Communication，以及Synchronization这几个阶段（关于细节可以参看
相关网站）。
相较于专门针对Graph计算的Google的Pregel和另一个开源版本Giraph，Hama是一种更
加宽泛的计算框架，它有Grpah API，同时也可以大家写更加宽泛的迭代算法，比如
KMeans，EM，PageRank等。此外，为了进一步提高计算效率，Hama目前正在考虑加入
GPU协作运算。
另一个很接近的框架是Spark，如果数据（RDD）被载入内存（cache），那么Spark在进
行迭代运算时效率也很高。
Hama目前社区还很小，所以显得比较冷清。Mahout社区要大很多，而且目前在考虑加入
基于Spark的算法，所以比... 阅读全帖

r********y
发帖数: 30

来自主题: JobHunting版 - 发几家面经（Bloomberg, Amazon, Epic, Microsoft, Zillow），

谢谢回复，题目要求分三部分，第一是写思路，第二是分析复杂度，第三是coding，没
有example的input和output（或者我没有找到在哪里）
用brute force我感觉并不太可行，因为题目要求是找最靠近的k个点，我的理解是用最
小半径的圆来确定这些点，圆心并不一定在某个点上，所以可能性有无限多种，我记得
以前上某门课的时候提过一种叫kmeans的算法是用来算聚合点的，也许答案跟这个差不
多，我也在网上找过这个答案，貌似叫做k-diameter什么的有一篇论文来讲这个问题但
是因为没权限所以看不了，所以在这里希望有哪位高手懂的能够提供一下自己的答案，
或许我没太理解你的意思，不过请问你能否提供以下brute force的思路呢？我现在对
这题已经没想法了，就是很好奇

output

s******t
发帖数: 229

来自主题: JobHunting版 - 发几家面经（Bloomberg, Amazon, Epic, Microsoft, Zillow），

c(n,k)，所有组合试一遍，选那个最小的呗，brute force怎么可能不行啊
最靠近的定义就是两两点的euclidean所有总和最小吧？
再优化的话，就是先用kmean大致分几个cluster，再选个最dense的，求个ssn什么的，
看谁最小，不过这种方法不一定是global minimum，不过复杂度会减少很多

p*********e
发帖数: 303

来自主题: JobHunting版 - data scientist 都考哪些算法啊？

kmeans, hierarchical clustering, spectral clustering.
logistic regression, svm, random forest, adboost.
不过现在kaggle上还是deep neural nets一统天下

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天