问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？ - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？

相关主题
● 求助信息提取 (转载)	● [Data Science Project Case] Generate Categories for Product
● 有关clustering	● only average statistics
● Science杂志一篇关于clustering的新文章 (转载)	● 找DS的工作帮忙分析下
● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。	● 我觉得关于datascience最近看到的几个有价值的贴
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？	● Science上新clustering算法的分析测试
● 一道面试题，向本版求教一下。	● 请推荐生物界认可的Clustering Analysis的免费软件
● [Data Science Project Case] Fuzzy matching on names	● data scientist的五个方面
● 有没有人想报Cloudera的Data Scientist Certificate的	● 都用了spark了吗？

相关话题的讨论汇总
话题: weight话题: 1m话题: 二维话题: 座标话题: 点有

进入DataSciences版参与讨论

1

(共1页)

s****h 发帖数: 3979	1 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？假如一个cluster是一个圆，要求找不相交/或少许相交的一些圆（例如top100），这些圆内weight值最大。多谢。
s****h 发帖数: 3979	2 对了，给定的半径不同，这样的cluster/圆也会不同。每个点和其最近N个neighbor的平均值是d，1M点的d的平均值是D。对应不同的N，D不同。假设给定一个N，求top（M)的圆，咋弄？
s****h 发帖数: 3979	3 觉得这应该是个很常见的问题，网上搜了下，找到了一个算法： http://resources.arcgis.com/en/help/main/10.1/index.html#//005p python有工具包 https://code.google.com/p/pysal/source/browse/trunk/pysal/esda/getisord.py?r =959
T*****u 发帖数: 7103	4 我没太看明白题。weight是做啥的，根据啥cluster啊
s****h 发帖数: 3979	5 比如说，给你一个地图，刑事案件发生的地点和严重程度。严重程度就是weight 或者说是商品销售的目的地，货物类型/数量/价格，这个数量/价格和运输费用就是 weight
t******g 发帖数: 2253	6 这个有点意思。这种点有权重的以前没接触过。不过感觉还是有不少实际应用价值。
T*****u 发帖数: 7103	7 是类似于二维地图的hotmap吗？是给点做cluster还是给二维地图做segmentation？【在 s****h 的大作中提到】 : 比如说，给你一个地图，刑事案件发生的地点和严重程度。 : 严重程度就是weight : 或者说是商品销售的目的地，货物类型/数量/价格，这个数量/价格和运输费用就是 : weight
T*****u 发帖数: 7103	8 如果是后者的话，我用mixture of gaussians做过一个类似的,数据的前期整理比较麻烦；后来有些不规则形状分布的，我的做法是每一个点当作一个rbf, weight当做 function的amplitude，train to get width matrix（can be location dependent），然后地图上任意一点的值都可以算，得到一个hot map,然后再做segmentation。其实就是一堆点用rbf smooth成一个面，然后用这个面作为估计。非专业人士的非专业做法，仅供参考。
c***z 发帖数: 6348	9 heatmap? 【在 s****h 的大作中提到】 : 比如说，给你一个地图，刑事案件发生的地点和严重程度。 : 严重程度就是weight : 或者说是商品销售的目的地，货物类型/数量/价格，这个数量/价格和运输费用就是 : weight
w******e 发帖数: 1621	10 你圈圈大小要是给定的，来个K-means应该可以，EM块， E step 注意用weighted mean ，开始也想说GMM,但是1M行的话，谨慎表示不客观，用gibbs fit过 GMM, 到50K就受不了了而且企业里用K-MEANs可能性大, 另求内推DS,SDE。本人主业stat phd, data visualization和machine learning 方向。副业主刷c++ 和副刷java。【在 s****h 的大作中提到】 : 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？ : 假如一个cluster是一个圆，要求找不相交/或少许相交的一些圆（例如top100），这 : 些圆内weight值最大。 : 多谢。
h*****7 发帖数: 6781	11 想耍酷，在黎曼空间定义distance 想绕晕，拟合weight，套贝叶斯想忽悠，直接上MDS 【在 s****h 的大作中提到】 : 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？ : 假如一个cluster是一个圆，要求找不相交/或少许相交的一些圆（例如top100），这 : 些圆内weight值最大。 : 多谢。
y*****d 发帖数: 82	12 简单? 把weight看成第3维(每个点的高度),在3维空间中做K-means, K-medoids 或其他算法. 【在 s****h 的大作中提到】 : 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？ : 假如一个cluster是一个圆，要求找不相交/或少许相交的一些圆（例如top100），这 : 些圆内weight值最大。 : 多谢。

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 都用了spark了吗？	● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● Mac or Windows?	● 一道面试题，向本版求教一下。
● 问一个简单的图像识别问题	● [Data Science Project Case] Fuzzy matching on names
● 新博士选题求指导	● 有没有人想报Cloudera的Data Scientist Certificate的
● 求助信息提取 (转载)	● [Data Science Project Case] Generate Categories for Product
● 有关clustering	● only average statistics
● Science杂志一篇关于clustering的新文章 (转载)	● 找DS的工作帮忙分析下
● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。	● 我觉得关于datascience最近看到的几个有价值的贴

相关话题的讨论汇总
话题: weight话题: 1m话题: 二维话题: 座标话题: 点有

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)