由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Military版 - 10^8个点如何跑kmeans,求建议
相关主题
微软的成功,证明了烙印CEO比老中强"广东制造"质量竞争力跃居全国第一 首次赶超浙苏京沪
前员工追忆百度乱象:上下异心 狼性压制人性(转载) (转载)东风11,非常性感
在国内当马工, 真是惨 (转载)南方报业入主凯~迪网络 成最大股东
国内做IT的现在很心高气傲啊 (转载)大使馆的五毛吃了夜宵,又开始集群轰炸菌斑了,
NVIDIA、京东战略合作:联手人工智能zt钓鱼岛一打
醒狮601-1高铁的主要意义我看是加速中国的城市化和集群化啊
闲谈苏德战争——莫斯科会战的决定性因素:会战基本进程郭春平就是乘飞机旅游的大妈 (转载)
“腾笼换鸟”东莞对接麻省,将成"世界设计中心"二战中,没有哪个国家可以单挑赢中国
相关话题的讨论汇总
话题: kmeans话题: time话题: 个点话题: spark话题: rxkmeans
进入Military版参与讨论
1 (共1页)
g******t
发帖数: 11249
1
客户要求就是这样
不能改
a********r
发帖数: 4013
2
换客户。。。。。。。。
s*****l
发帖数: 7106
3
Map reduce

【在 g******t 的大作中提到】
: 客户要求就是这样
: 不能改

b****u
发帖数: 1130
4
load 一亿个点不是问题,问题是距离矩阵。
把距离矩阵按照行或则列分为 100份。每一份有10^ 6个点到其他点的距离。这样就可
以一部分一部分做运算。

【在 g******t 的大作中提到】
: 客户要求就是这样
: 不能改

Q*****r
发帖数: 234
5
Spark Stream kmeans
e****w
发帖数: 1565
6
Lol你是垃圾超酸集群的话还要自己写mpi
不知道哪里买得到spark hadoop集群 然后直接套kmean就好了lol
找你么学校计算机系搞跑spark/ Hadoop 个分布式集群的实验室 让他们呢跑
m*****n
发帖数: 4015
7
不是有recursively compute variance and means 的办法吗。这不是很通用的做法
吗。 为啥这是个问题
s******r
发帖数: 5309
8
k-d tree
n********g
发帖数: 6504
9
LZ应该先学一下初中课程,啥叫大O。
格子由大到小。问题由粗到细。

【在 b****u 的大作中提到】
: load 一亿个点不是问题,问题是距离矩阵。
: 把距离矩阵按照行或则列分为 100份。每一份有10^ 6个点到其他点的距离。这样就可
: 以一部分一部分做运算。

s***c
发帖数: 1926
10
10^8并不大,一张D800的照片就36M个象素,各种算法笔记本都跑得飞快.
试试 Mini Batch Kmeans
http://scikit-learn.org/stable/modules/clustering.html#mini-batch-kmeans

【在 g******t 的大作中提到】
: 客户要求就是这样
: 不能改

h**c
发帖数: 1979
11
Spark
n********t
发帖数: 21
12
mapreduce 就是google来处理这种海量维度的矩阵的。
kmeans mapreduce

:客户要求就是这样
s***c
发帖数: 1926
13
刚才查了下,这人用R自带的rxKmeans,在2011年的笔记本上跑123 million的7维数据
,才用6分钟。什么特殊方法都不用。
http://blog.revolutionanalytics.com/2011/06/kmeans-big-data.html
Finally, just for fun, I ran the rxKmeans on the 123 million plus row
airlines data set that I have described in a previous blog post looking for
2 clusters in a 7 dimensional space described by departure time, arrival
time, air time, arrival delay, departure delay, taxi in time and taxi out
time. I have no idea how to interpret the results, but the calculation ran
in just under 6 minutes.

【在 s***c 的大作中提到】
: 10^8并不大,一张D800的照片就36M个象素,各种算法笔记本都跑得飞快.
: 试试 Mini Batch Kmeans
: http://scikit-learn.org/stable/modules/clustering.html#mini-batch-kmeans

1 (共1页)
进入Military版参与讨论
相关主题
二战中,没有哪个国家可以单挑赢中国NVIDIA、京东战略合作:联手人工智能zt
"新华社'批孔庆东的文章已被删除醒狮601-1
全世界再找不出一个比春运订火车票同时访问多的网站了闲谈苏德战争——莫斯科会战的决定性因素:会战基本进程
深圳光启研究院什么背景?“腾笼换鸟”东莞对接麻省,将成"世界设计中心"
微软的成功,证明了烙印CEO比老中强"广东制造"质量竞争力跃居全国第一 首次赶超浙苏京沪
前员工追忆百度乱象:上下异心 狼性压制人性(转载) (转载)东风11,非常性感
在国内当马工, 真是惨 (转载)南方报业入主凯~迪网络 成最大股东
国内做IT的现在很心高气傲啊 (转载)大使馆的五毛吃了夜宵,又开始集群轰炸菌斑了,
相关话题的讨论汇总
话题: kmeans话题: time话题: 个点话题: spark话题: rxkmeans