C*****n 发帖数: 1049 | 1 有200M个用户,现在让你进行分组,将他们分成大概20个组,每个组里大概有10M的用
户,尽量让用户interaction多的在一起。
只想到也许能用Clustering coefficient来衡量用户之间的联系程度,但是分组还是没
什么概念。 |
l****u 发帖数: 1764 | 2 用merge?先随机选取几个用户当组,然后一个个处理incoming user,如果跟现存的所
有组都没联系或者联系很小,就再创个组,否则加入到那个组之中,处理完后对所有的
组再进行merge直到剩下20个组
感觉没有标准答案啊 |
C*****n 发帖数: 1049 | 3 这样有很大的问题就是联系小的有很大的概率被放在一组,因为最开始选组的信息很少
,会误以为已经选到联系大的组了
【在 l****u 的大作中提到】 : 用merge?先随机选取几个用户当组,然后一个个处理incoming user,如果跟现存的所 : 有组都没联系或者联系很小,就再创个组,否则加入到那个组之中,处理完后对所有的 : 组再进行merge直到剩下20个组 : 感觉没有标准答案啊
|
l****u 发帖数: 1764 | 4 那就分完之后再scan一遍,再把每个组里类似outlier的人拎出来重新assign一遍?
:这样有很大的问题就是联系小的有很大的概率被放在一组,因为最开始选组的信息很
少,会误以为已经选到联系大的组了
:你再低调也没有用,你那拉风的头像、扎势的ID都深深的出卖了你
【在 C*****n 的大作中提到】 : 这样有很大的问题就是联系小的有很大的概率被放在一组,因为最开始选组的信息很少 : ,会误以为已经选到联系大的组了
|
z*********n 发帖数: 1451 | 5 用一些聚类算法可以吧,距离就用interaction 程度。 |
U***A 发帖数: 849 | |
r***s 发帖数: 737 | 7 在一个无向图里求 min cut?
【在 C*****n 的大作中提到】 : 有200M个用户,现在让你进行分组,将他们分成大概20个组,每个组里大概有10M的用 : 户,尽量让用户interaction多的在一起。 : 只想到也许能用Clustering coefficient来衡量用户之间的联系程度,但是分组还是没 : 什么概念。
|
g*********e 发帖数: 14401 | 8 典型的community sharding
有不少关于这方面的paper
【在 C*****n 的大作中提到】 : 有200M个用户,现在让你进行分组,将他们分成大概20个组,每个组里大概有10M的用 : 户,尽量让用户interaction多的在一起。 : 只想到也许能用Clustering coefficient来衡量用户之间的联系程度,但是分组还是没 : 什么概念。
|