第8页 - 关于聚类的讨论汇总 - 话题女王

全部话题 - 话题: 聚类

s********k
发帖数: 6180

来自主题: Programming版 - [bssd]AI这辆车赶快上

新闻聚类的APP应该不好找市场了吧

i*****9
发帖数: 3157

来自主题: Programming版 - 我来讨论下意识的问题吧

现在的AI都只有单目标，那自然没有情感，没有自我认知。你如果训练出能进行完全不
相干的任务决策的一体的网络，再在其之上做一层对节点的聚类，可能会有点发现。

发帖数: 1

来自主题: Programming版 - Machine Learning 问题

请教个问题: 我想用机器学习来帮助提高搜索的相关性. 从搜索记录我得到关键字和点
击的文件:
关键字1 --> 文件1
关键字2 --> 文件2
关键字3 --> 文件3
...
问题是，我应该用什么模型来训练它，下一次当我看到一个新的关键字时，我可以将其
关联到一组文件? 对我来说，这是一个聚类(clustering)，对吗？K-Means or HMM?

l****r
发帖数: 119

来自主题: Programming版 - 离成功转码还有多远？

我是EE转码的，去年毕业，公司码农的工作没找到，在一个医院做了半年（号称研究机
器学习）的博后（工资低），说说感受：
能接触真实的医疗数据，数据库里有病人就诊记录包括吃的药和化验指标，但是数据比
较乱也很深奥，没有医疗行业知识，不懂药名和化验指标是什么意思，现学的话总觉得
差好远。所以，老板说让做什么就做什么。主要用python，pandas，sklearn，某些问
题用R做。研究的问题感觉都比较trivial。感觉都不是真正的机器学习，是简单的算数
分析。问题的定义也不是特别清楚。
还做了几个NLP的小project，论文的聚类，涉及到：
web scraping, 把论文从网上扒下来，用python beautiful soup, asyncio
feature 提取：用一个Medical Text Indexer (MTI)的网络API，把医学论文的关键字
找出来
machine learning算法: 用了LDA和k-means，都是调用sklearn库
pandas用的还挺熟的，各种groupby，apply。但去看job description，好多都要求会
tensorf... 阅读全帖

g****t
发帖数: 31659

来自主题: Programming版 - [bssd] Yann LeCun stepped down

查了一下，新上来那个director是以前CMU聚类搜索项目vivisimo的founder，
后来卖给IBM。成了watson explorer。
当初我本科有个同学去CMU在他们组，所以当初我用过很久vivisimo搜索。
这哥们目测比LeCun强大。
https://www.crunchbase.com/organization/vivsimo

research

s******g
发帖数: 962

来自主题: Biology版 - 复旦全国征集曹姓男性Y染色体 DNA辨曹操墓真伪zz

他们应该夏侯和曹都做。理论上两个姓聚类时有交际的就是曹操那一支。

c***3
发帖数: 251

来自主题: Biology版 - 怎么从ncbi大批量下载基因序列

我明白他的意思
他就要找一个基因，名字是固定的。
直接通过名字搜索，但是ncbi上结果出来400多个，他根据每一个结果的locus去下载序
列，发现序列长短不一，相似度也不是那么高。
所以他希望能够有个程序直接通过基因名字把所有相关序列都下载下来，然后根据序列
相似度聚类。
碰巧我这两天也在下载序列，不过我跟你需求不一样，我有locus列表，根据列表下载
序列。你要是不着急我可以过几天帮你弄弄

不同序列？还是你

K**********e
发帖数: 188

来自主题: Biology版 - 请教一个基因聚类的问题

通过ChIP seq得到数百个基因，有什么免费／付费的软件／网站可以对这些基因进行分
析的？也就是找出来大概可以分成
几组，跟细胞周期有关的，跟凋亡有关的，跟什么什么有关的那种。
另外有100多段，每段500bp左右的DNA序列，怎么从这些序列里面找出来motif？
知道的告诉我吧，谢谢！

g******w
发帖数: 78

来自主题: Biology版 - 请教一个基因聚类的问题

gsea - for function annotation

h****n
发帖数: 2552

来自主题: Biology版 - 请教一个基因聚类的问题

同问

g********i
发帖数: 207

来自主题: Biology版 - 请教一个基因聚类的问题

we usually do clustering followed by gene ontology analysis. You may use
Cluster 3.0 (free java software) for clustering and DAVID or iGET (online
tools) for gene ontology analysis. If you know how to use matlab, you can
also find several functions for clustering and ontology analysis there.

y*********1
发帖数: 46

来自主题: Biology版 - 请教一个基因聚类的问题

You can use CEAS (Cis-regulatory Element Annotation System) from Shirley Liu
' lab for motif finding.

j****x
发帖数: 1704

来自主题: Biology版 - seeking recommendation for clustering analyses

hehe,以后凡是这种只回答“R”或者“Bioconductor”而不指明package的，版主应该
扣包子
miRNA Time-series和传统的mRNA Time-series Clustering没有太大的差别，我以前都
是先在genespring下面用k-means聚类大致看一下，再决定怎么往下走。
绝大部分商业芯片分析软件都有相应功能，你那里要是有的话就翻翻manual。要是不想
花钱就看看下面这个Short Time-series Expression Miner (STEM)，挺不错的。
http://gene.ml.cmu.edu/stem/

k****n
发帖数: 158

来自主题: Biology版 - Microarray 分析求指点下下

把几个病人和对照组的样品做了几个microarray,通过pattern检索（就是把病人表达选
高对照表达选低，或者反过来）得到了一些基因的list (Probe lists), 请问怎样把这
些基因做一个批量的分析，（信号通路相关的聚类分析，比如细胞生长，细胞爬行，
或者细胞骨架相关，生长因子调节相关等等）这样的类比分析，希望知道这些病人的
样品中哪一组基因表达改变了。
请指点用什么样的软件，以及简单的建议
谢谢

G***G
发帖数: 16778

来自主题: Biology版 - 区间聚类

Hi Guys,
I have a very tough question. if we have some range values, how to cluster
them?
range value is defined as [3,5] meaning a range starting from 3 and ending
at 5.
Suppose we have [3,5], [4,6], [30,50], [40,55],
so we can by eyes cluster the four ranges into two clusters:
the first two and the last two.
My question is if there are any algorithms for clustering many range values?

M*P
发帖数: 6456

来自主题: Biology版 - 区间聚类

Ask CS people. This is a graph problem. Find connected components.

ending
values?
★ 发自iPhone App: ChineseWeb 7.8

N******n
发帖数: 3003

来自主题: Biology版 - 区间聚类

minimum spanning tree

K****n
发帖数: 5970

来自主题: Biology版 - 区间聚类

其是重点就是如何定义两个range的距离。你拍脑袋想一个定义，然后k-mean一番，打
完收工了就。

ending
values?

K****n
发帖数: 5970

来自主题: Biology版 - 区间聚类

把中括号改成小括号！好主意！

s******s
发帖数: 13035

来自主题: Biology版 - 区间聚类

//nod。完全取决于打算怎么定义close

y*******1
发帖数: 164

来自主题: Biology版 - 请教RNA-Seq分析问题

简单来说，第一步看聚类(clustering)和PCA，看pre-treatment, after-treatment 哪
个和fibroblast更近
之后找差异基因 after-treatment vs fibroblast和pre-treatment vs fibroblast，
看那个DE genes更多

like

g**u
发帖数: 504

来自主题: Computation版 - 求助关于聚类问题

写个MCMC算法可以解这个问题，每一步MCMC交换两个点（这两个点的选择可以是随机的
）的label或不变，但估计要自己写。

g*****l
发帖数: 424

来自主题: Mathematics版 - 数据科学之江湖兵器谱 (转载)

【以下文字转载自 DataSciences 讨论区】
发信人: greatel (灵致), 信区: DataSciences
标题: 数据科学之江湖兵器谱
发信站: BBS 未名空间站 (Sun Oct 9 16:57:10 2016, 美东)
【注】原发于微信公众号：data_wisdom
数据江湖，风起云涌。各路英豪，群雄逐鹿。
这是一个数据科学最好的时代，也是数据江湖最乱的时代。
那么在这么一个特殊的江湖里面浪，有什么兵器是值得我们去关注的呢？这篇文章列举
了一些常用方法（刀剑），并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。
数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然，这并不代表数据科学（统计学）的全部。虽
然他并没有提出自己的详细总结，但是有志于学习数据科学的同学不妨初步有个印象，
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域，很多人都会在日常的数据实践中用到。多学有益于身心健康。
首先需要说明的是，这些技术... 阅读全帖

T**n
发帖数: 47

来自主题: Quant版 - 问一道面试题, 关于算法

编程菜鸟，ds准备转马工。可不可以从cluster的角度想这个问题？先进行聚类分析，
找出所有两点间距离小于2R的cluster，然后给每个cluster赋上每点的值，找出值最大
的那个cluster，然后我们可以假设最大值得圆一定来自这个cluster，这样我们就缩小
了比较范围，但是这样就算不出复杂度了。

s******a
发帖数: 184

来自主题: Quant版 - 判断两个时间序列足够近似的方法

有两个时间序列，我现在可以用Lp Norm 或者 Dynamic Time Warpinging 计算出它们
之间的距离，但这些距离只是相对的，一般用于聚类或分类。可我现在的问题是我只
有两个序列，我只想知道这两个序列可不可以相互替换，或者说足够近似。这一般
都有哪些可以定量的方法呢。

g*******y
发帖数: 380

来自主题: Statistics版 - 请教一个问题

我ft，居然验证失败，我白敲了半天。
建议不敢当，有错误的地方有多指正。
首先觉得你这个思路和生物上的生物分类学的方法比较接近，可以试试找他们的文章看
看，或者直接看multiple variate analysis的书。
从统计的角度，我学到的皮毛：先用SAS做个scatter plots的矩阵，便于你初步检查每
个变量间的相关性。factor analysis的输出结果里可以检查相关性。然后选择合适的
factors进行聚类分析。

c*******7
发帖数: 2506

来自主题: Statistics版 - Data Mining 的方向前途

上过两门跟data mining沾边的课，一门叫knowledge discovery,一门叫统计模式识别
。感觉主要在讲模型跟算法，比如神经网络模型，判别分析，聚类分析，决策树，关联
分析，甚至还有logistic回归。

f****r
发帖数: 1140

来自主题: Statistics版 - Data Mining 的方向前途

感觉主要在讲模型跟算法，比如神经网络模型，判别分析，聚类分析，决策树，关联
这些东西工作以后是不是很有用处？

a*****3
发帖数: 601

来自主题: Statistics版 - 请问哪里有PCA的SAS code 啊

是不是可以用什么‘两部聚类法的’？用什么eigenvalue最后sas输出一个‘树’？不过没搞懂搞这东东有什么用？懒得google了。谁给展开说说pca和cluster analysis有啥区别一律30伪币怎么样？

d*****u
发帖数: 17243

来自主题: Statistics版 - 问一个聚类分析

如果数据里有一个cluster很大，包含的成员多
另外的cluster相对比较小
用什么方法效果比较好
试了一下k-means，发现那个大的cluster还是容易被拆解跟其他的到一块

k*****u
发帖数: 1688

来自主题: Statistics版 - 问一个聚类分析

mixture model

t***q
发帖数: 418

来自主题: Statistics版 - 问一个聚类分析

我看到这篇文章：
http://bioinformatics.oxfordjournals.org/content/20/12/1905.sho
supervised cluster,不知道对你是否有帮助？

a***g
发帖数: 2761

来自主题: Statistics版 - 问一个聚类分析

k-median？
可能更sharp一点

N******n
发帖数: 3003

来自主题: Statistics版 - 问一个聚类分析

meloid clustering

N******n
发帖数: 3003

来自主题: Statistics版 - 问一个聚类分析

A new algorithm for hybrid hierarchical clustering
Mark J. Van der Laan and Katherine S. Pollard

m********t
发帖数: 94

来自主题: Statistics版 - 一道面试题，向本版求教一下。

问题没说清楚啊
1 只有单一产品？
2 你可以利用所有like过得数据还是抽样数据？有没有所有用户的数据？
3 group是设定好的么？如果不是感觉问的是聚类
如果只是gender/age/country而且group已经是预设好的想不到需要做什么。。。

twitter
group

s******a
发帖数: 184

来自主题: Statistics版 - 判断两个时间序列足够近似的方法

g*****l
发帖数: 424

来自主题: Statistics版 - 数据科学之江湖兵器谱 (转载)

m******r
发帖数: 1033

来自主题: Statistics版 - Re: 求内推纽约市内的 Data Scientist 职位，谢谢！

听着挺nb ...
我最近正巧也在捉摸抽样这个事，你用过matchit这个软件么？ R写的，出自哈佛的教
授，用的是PSM , propensity score matching,该软件还得过一个奖，请教一下，你
用过么？好用么?
https://r.iq.harvard.edu/docs/matchit/2.4-20/matchit.pdf
https://gking.harvard.edu/matchit
有这么个matchit，什么stratify, 聚类抽样一口气都能解决了。但只是道听途说，从
来没用过。

W*******s
发帖数: 18705

来自主题: Complain版 - ！！！鱼版版务抗命站务，请钻风给力处理！！！

钻风大大，干脆鱼版重组算啦，这个版务是个撤头撤尾的黑瑟会帮派组织，先派马甲挑
衅，再派干将一名投诉版PK，然后聚类部开秘密会议，帮派分子应诉Copy/Paste事先写
好的檄文，公然多次羞辱首长，藐视站务，威胁买卖体网站，输了之后又严重反抗首长
的判决，名副其实的动用私刑再封我14天。在鱼版上大肆撤帖封ID，严禁讨论有关话题
，可是这有用吗，这个话题不正是鱼版最关心的话题吗？这个版务已经走火入魔了，岳
不群已经偷偷自宫练宝典了，最近胡子也不长了。叩请版务立即处理挑战中央言行举动
，以儆效尤。

m***1
发帖数: 225

来自主题: Complain版 - 渔版版务希望和站务公开坦诚交流

NND,我以前还不知道有你这个ID的存在，这几天听说厕所发大水，丫打酱油顺路
捞几瓢到也勤的紧。我知道了，丫是聚类部的帮派分子。

m****s
发帖数: 18160

来自主题: Complain版 - [合集] 渔版版务希望和站务公开坦诚交流

☆─────────────────────────────────────☆
bass (rod and gun) 于 (Mon May 14 17:09:26 2012, 美东) 提到:
我是渔版现任版主。本人正在FL休假钓鱼，周四返回。由于上网时间和机会很有限，简
单写出以下几点，希望和站务公开交流，给所有关心这一事件的渔友一个透明的处理过
程。
1. 按照现在MITBBS投诉处理过程。站务给出处理结果后，整个投诉过程还有两步完成
，其中包括双方的二度申辩很版务的最终判决。WB投诉后，我进行了应诉，站务给出处
理结果。我们版务决定进行二度申辩。首先，我们在原帖中，公开发贴提出二度申辩，
渔版投票，请站务给出相关站规。其次，我本人也PM站务，表明要二度申辩，同时问是
什么程序，公开发贴还是直接和站务联系。大约4天的时间过去了。我们一直没有收到
站务方面，无论是公开回帖还是PM的任何回复. 今天站务突然提前放人。
请问站务，你们自己制定的投诉程序，你们是否还遵守？如果不遵守，是否应该提前告
知，或给个解释？
（我是借的计算机，时间有限，麻烦哪位完整贴出投诉程序，谢谢！）
2... 阅读全帖

h*****7
发帖数: 6781

来自主题: DataSciences版 - 我有大概80000～100000个左右的时间序列，希望对他们进行分类。

我不是数学和物理的，第一反应也是FFT提特征再聚类

f*********2
发帖数: 48

来自主题: DataSciences版 - 我有大概80000～100000个左右的时间序列，希望对他们进行分类。

我是扫地的……
建议用小波，然后上各种聚类方法。

h*****7
发帖数: 6781

来自主题: DataSciences版 - 我有大概80000～100000个左右的时间序列，希望对他们进行分类。

我不是数学和物理的，第一反应也是FFT提特征再聚类

f*********2
发帖数: 48

来自主题: DataSciences版 - 我有大概80000～100000个左右的时间序列，希望对他们进行分类。

我是扫地的……
建议用小波，然后上各种聚类方法。

m******e
发帖数: 201

来自主题: DataSciences版 - 最近觉得分类算法很多时候还是不靠谱啊

你说是两样东西聚类(clustering)，分类是classification
很多时候ML难的是找合适的feature, svm input 的feature, k means的distance
function才是影响结果的原因

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015-01-29 LDA入门与Java实现

(今天实验一下专为mitbbs排版的机器学习日报，欢迎大家拍砖)
机器学习日报 2015-01-29
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-29/short.html
1) 【LDA入门与Java实现】 by @hankcs
关键词：算法, 自然语言处理, Java, 主题模型
【LDA入门与Java实现】这是一篇面向工程师的LDA入门笔记，并且提供一份开箱即用
Java实现。本文只记录基本概念与原理，并不涉及公式推导。文中的LDA实现核心部分
采用了arbylon的LdaGibbsSampler并力所能及地注解了，在搜狗分类语料库上测试良好
，开源在GitHub上。什么… [1]
[1] http://www.hankcs.com/nlp/lda-java-introduction-and-implementation.html
2) 【Radim... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年2月楼

机器学习日报 2015-02-20
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-02-20/short.html
1) 【Wiki2Vec从维基百科Dumps生成Word2Vec向量】 by @爱可可-爱生活
关键词：自然语言处理
[开源] Wiki2Vec —— 从维基百科Dumps生成Word2Vec向量的工具，包括词向量和主题
向量
长微博图：http://ww2.sinaimg.cn/large/5396ee05jw1epfedr29wsj20l42p21h4.jpg
2) 【Netflix开源大数据异常检测模块RAD】 by @爱可可-爱生活
关键词：算法, Java, PCA, 代码, 可视化, 异常检测
[开源]《RAD - Outlier Detection on Big Data》 [1] Netflix开源大数据异常检测
模块RAD(Robus... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报 2015年3月楼

机器学习日报 2015-03-18
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-03-18/short.html
1) 【WSDM 2015总结】 by @唐杰THU
关键词：会议活动, 资源, 自然语言处理, Michael Franklin, PDF, WSDM, 会议
WSDM 2015结束，推荐大家一个黄老师等人领衔写的总结。 [1] 今年我们做了论文评审
的A/B test (分给不同组评审)，录用率仅16%。邀请了加州伯克利的Michael Franklin
，Facebook的Lada，康奈尔的Thorsten等人做keynote。今年还有winter school，很是
卖座，还用了 @刘知远THU 的关键词抽取
[1] http://www.ccf.org.cn/resources/1190201776262/2015/03/12/16.pdf
... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天