g******t 发帖数: 11249 | |
a********r 发帖数: 4013 | |
s*****l 发帖数: 7106 | 3 Map reduce
【在 g******t 的大作中提到】 : 客户要求就是这样 : 不能改
|
b****u 发帖数: 1130 | 4 load 一亿个点不是问题,问题是距离矩阵。
把距离矩阵按照行或则列分为 100份。每一份有10^ 6个点到其他点的距离。这样就可
以一部分一部分做运算。
【在 g******t 的大作中提到】 : 客户要求就是这样 : 不能改
|
Q*****r 发帖数: 234 | |
e****w 发帖数: 1565 | 6 Lol你是垃圾超酸集群的话还要自己写mpi
不知道哪里买得到spark hadoop集群 然后直接套kmean就好了lol
找你么学校计算机系搞跑spark/ Hadoop 个分布式集群的实验室 让他们呢跑 |
m*****n 发帖数: 4015 | 7 不是有recursively compute variance and means 的办法吗。这不是很通用的做法
吗。 为啥这是个问题 |
s******r 发帖数: 5309 | |
n********g 发帖数: 6504 | 9 LZ应该先学一下初中课程,啥叫大O。
格子由大到小。问题由粗到细。
【在 b****u 的大作中提到】 : load 一亿个点不是问题,问题是距离矩阵。 : 把距离矩阵按照行或则列分为 100份。每一份有10^ 6个点到其他点的距离。这样就可 : 以一部分一部分做运算。
|
s***c 发帖数: 1926 | 10 10^8并不大,一张D800的照片就36M个象素,各种算法笔记本都跑得飞快.
试试 Mini Batch Kmeans
http://scikit-learn.org/stable/modules/clustering.html#mini-batch-kmeans
【在 g******t 的大作中提到】 : 客户要求就是这样 : 不能改
|
h**c 发帖数: 1979 | |
n********t 发帖数: 21 | 12 mapreduce 就是google来处理这种海量维度的矩阵的。
kmeans mapreduce
:客户要求就是这样
: |
s***c 发帖数: 1926 | 13 刚才查了下,这人用R自带的rxKmeans,在2011年的笔记本上跑123 million的7维数据
,才用6分钟。什么特殊方法都不用。
http://blog.revolutionanalytics.com/2011/06/kmeans-big-data.html
Finally, just for fun, I ran the rxKmeans on the 123 million plus row
airlines data set that I have described in a previous blog post looking for
2 clusters in a 7 dimensional space described by departure time, arrival
time, air time, arrival delay, departure delay, taxi in time and taxi out
time. I have no idea how to interpret the results, but the calculation ran
in just under 6 minutes.
【在 s***c 的大作中提到】 : 10^8并不大,一张D800的照片就36M个象素,各种算法笔记本都跑得飞快. : 试试 Mini Batch Kmeans : http://scikit-learn.org/stable/modules/clustering.html#mini-batch-kmeans
|