由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
相关主题
求助 信息提取 (转载)[Data Science Project Case] Generate Categories for Product
有关clusteringonly average statistics
Science杂志一篇关于clustering的新文章 (转载)找DS的工作 帮忙分析下
我有大概80000~100000个左右的时间序列,希望对他们进行分类。我觉得关于datascience最近看到的几个有价值的贴
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?Science上新clustering算法的分析测试
一道面试题,向本版求教一下。请推荐生物界认可的Clustering Analysis的免费软件
[Data Science Project Case] Fuzzy matching on namesdata scientist的五个方面
有没有人想报Cloudera的Data Scientist Certificate的都用了spark了吗?
相关话题的讨论汇总
话题: weight话题: 1m话题: 二维话题: 座标话题: 点有
进入DataSciences版参与讨论
1 (共1页)
s****h
发帖数: 3979
1
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
假如一个cluster是一个圆,要求找 不相交/或少许相交的一些圆(例如top100),这
些圆内weight值最大。
多谢。
s****h
发帖数: 3979
2
对了,给定的半径不同,这样的cluster/圆也会不同。
每个点和其最近N个neighbor的平均值是d,1M点的d的平均值是D。
对应不同的N,D不同。
假设给定一个N,求top(M)的圆,咋弄?
s****h
发帖数: 3979
3
觉得这应该是个很常见的问题,网上搜了下,找到了一个算法:
http://resources.arcgis.com/en/help/main/10.1/index.html#//005p
python有工具包
https://code.google.com/p/pysal/source/browse/trunk/pysal/esda/getisord.py?r
=959
T*****u
发帖数: 7103
4
我没太看明白题。weight是做啥的,根据啥cluster啊
s****h
发帖数: 3979
5
比如说,给你一个地图,刑事案件发生的地点和严重程度。
严重程度就是weight
或者说是商品销售的目的地,货物类型/数量/价格,这个数量/价格和运输费用就是
weight
t******g
发帖数: 2253
6
这个有点意思。这种点有权重的以前没接触过。不过感觉还是有不少实际应用价值。
T*****u
发帖数: 7103
7
是类似于二维地图的hotmap吗?是给点做cluster还是给二维地图做segmentation?

【在 s****h 的大作中提到】
: 比如说,给你一个地图,刑事案件发生的地点和严重程度。
: 严重程度就是weight
: 或者说是商品销售的目的地,货物类型/数量/价格,这个数量/价格和运输费用就是
: weight

T*****u
发帖数: 7103
8
如果是后者的话,我用mixture of gaussians做过一个类似的,数据的前期整理比较麻
烦;后来有些不规则形状分布的,我的做法是每一个点当作一个rbf, weight当做
function的amplitude,train to get width matrix(can be location dependent)
,然后地图上任意一点的值都可以算,得到一个hot map,然后再做segmentation。其实
就是一堆点用rbf smooth成一个面,然后用这个面作为估计。
非专业人士的非专业做法,仅供参考。
c***z
发帖数: 6348
9
heatmap?

【在 s****h 的大作中提到】
: 比如说,给你一个地图,刑事案件发生的地点和严重程度。
: 严重程度就是weight
: 或者说是商品销售的目的地,货物类型/数量/价格,这个数量/价格和运输费用就是
: weight

w******e
发帖数: 1621
10
你圈圈大小要是给定的,来个K-means应该可以,EM块, E step 注意用weighted mean

开始也想说GMM,但是1M行的话,谨慎表示不客观,用gibbs fit过 GMM, 到50K就受不了了
而且企业里用K-MEANs可能性大,
另求内推DS,SDE。本人主业stat phd, data visualization和machine learning 方向。
副业主刷c++ 和副刷java。

【在 s****h 的大作中提到】
: 问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
: 假如一个cluster是一个圆,要求找 不相交/或少许相交的一些圆(例如top100),这
: 些圆内weight值最大。
: 多谢。

h*****7
发帖数: 6781
11
想耍酷,在黎曼空间定义distance
想绕晕,拟合weight,套贝叶斯
想忽悠,直接上MDS

【在 s****h 的大作中提到】
: 问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
: 假如一个cluster是一个圆,要求找 不相交/或少许相交的一些圆(例如top100),这
: 些圆内weight值最大。
: 多谢。

y*****d
发帖数: 82
12
简单? 把weight看成第3维(每个点的高度),在3维空间中做K-means, K-medoids 或其他
算法.

【在 s****h 的大作中提到】
: 问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
: 假如一个cluster是一个圆,要求找 不相交/或少许相交的一些圆(例如top100),这
: 些圆内weight值最大。
: 多谢。

1 (共1页)
进入DataSciences版参与讨论
相关主题
都用了spark了吗?有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
Mac or Windows?一道面试题,向本版求教一下。
问一个简单的图像识别问题[Data Science Project Case] Fuzzy matching on names
新博士选题求指导有没有人想报Cloudera的Data Scientist Certificate的
求助 信息提取 (转载)[Data Science Project Case] Generate Categories for Product
有关clusteringonly average statistics
Science杂志一篇关于clustering的新文章 (转载)找DS的工作 帮忙分析下
我有大概80000~100000个左右的时间序列,希望对他们进行分类。我觉得关于datascience最近看到的几个有价值的贴
相关话题的讨论汇总
话题: weight话题: 1m话题: 二维话题: 座标话题: 点有