s******s 发帖数: 13035 | 1 经常有这个需要,比如做population stratefication或者其他molecular profiling的
时候,
1. 有10000个点,每个点有x, y ,可以在2D plot上显示出来。
2. 有或者没有一些已知classification的点,比如1000个点,知道population的分类,
可以通过不同的颜色在2D plot上显示
需要可以通过鼠标在plot选不同的区域用人眼classify,然后最后告诉我每个点在那个
cluster.
我知道有些R/python可视化package应该可以实现这个,不过有没有具体的sample code。
如果有现成的工具或者网站那就更好了。
另外,就population stratefication来说,有没有啥根据smartpca好的classifier?
我试了
一下knn, 对1kg的选择还行,对我的population assignment看起来有很多不对的地方。
感觉上可能手动更加准一点,也在看看tsne等其他方法,大家有推荐方法么? | g*********3 发帖数: 177 | 2 你的问题是:有10k个data points,需要做cluster analysis?feature只有x&y?
你的数据是label-free的?KNN数据量太大了之后运行很慢。而且bio不比其他的数据,
如果知道来自三个ethnic group,你的k就限定了,不能随便制定K值。 |
|