由买买提看人间百态

topics

全部话题 - 话题: 聚类
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
e****e
发帖数: 1775
1
来自主题: Berkeley版 - 商议版聚事宜
切,就跟你自个儿不ws似的……
更何况,我怎么也不觉得米特是这类滴
y******e
发帖数: 2807
2
http://www.yebol.com/
刚做好这个beta版没多久,大家有兴趣可以试用一下,公司是硅谷的startup,创办人
是原雅虎的工程师。下面是一些beta版发布时的介绍。
Yebol宣布发布基于知识的创新性搜索引擎http://www.yebol.com
新的搜索引擎将为查询提供通过语义学和精密算法得到的查询主页。
2009年7月27日—Yebol宣布其语义搜索引擎正式发布。Yebol.com将提供给用户最为成
熟的,高度类别化得搜索结果。
Yebol开创性的,高度可拓展的技术实现了创始团队的目标,即建立一个类似人的世界
知识库并提供全新的,综合性的,有效的搜索和信息服务。
Yebol结合专利算法与人类的知识为每一个搜索和每个人提供一个网络目录。 不同于一
般地罗列搜索结果,耶宝自动把结果聚类成为高度集中地,组织良好的特定词条类别组
,巧妙地把搜索和浏览结合到了一起。
Yebol的搜索技术兼具精确性和可拓展性-- 这是新的搜索技术能长存于世的两个必要特
征—同时还具有应对新要求的灵活性。”耶宝的创始人和总裁尹红枫说。“耶宝的知识
库目前有超过一千万的最相关
搜索主题,这只
j******n
发帖数: 21641
3
三个聚类:专业EE, CE(inc TE)和位于CA
人是很多的,各自联系就可以开始腐败了

业/单位: 联系方式:
61238734221
j******n
发帖数: 21641
4
三个聚类:专业EE, CE(inc TE)和位于CA
人是很多的,各自联系就可以开始腐败了

业/单位: 联系方式:
61238734221
d******n
发帖数: 983
5
呵呵,我就没参加过山东人的聚会。
难道是人都太多了?就不用这类活动了?
S******g
发帖数: 365
6
来自主题: CS版 - 求教高手:超级难题求解
二维聚类阿,另外告诉你一个效率很低但是很好描述的算法,在外面(比如四个角)随
便选几个点,然后 flooding。
q***s
发帖数: 2243
7
来自主题: CS版 - 有无这种聚类的算法?
不知道所说的名字对不对?
具体要求是:在平面上分布了很多点,这些点并非随即分布的,而是聚集在某几个区域
,有没有这种算法,来计算出这些点的区域的位置,比如坐标和区域的半径。
多谢各位!
s******e
发帖数: 285
8
来自主题: CS版 - 有无这种聚类的算法?
Gaussian Mixuture Models
l******e
发帖数: 470
9
来自主题: CS版 - 有无这种聚类的算法?
试试k-means
r***h
发帖数: 70
10
来自主题: CS版 - 有无这种聚类的算法?
知道区域数用k-means,不知道的话用mean-shift
计算坐标和半径用PCA
b******x
发帖数: 826
11
来自主题: CS版 - 有无这种聚类的算法?
Fancy一点点可以用spectral clustering
r**m
发帖数: 163
12
来自主题: CS版 - 有无这种聚类的算法?
数据量大了矩阵操作就个屁了
k**********g
发帖数: 989
13
来自主题: CS版 - 有无这种聚类的算法?
You can always process a smaller random sample, maybe 1% or 0.1% of data.
l********a
发帖数: 1154
14
来自主题: CS版 - 有无这种聚类的算法?
这不就是k-means吗?
v****s
发帖数: 1112
15
来自主题: CS版 - 有无这种聚类的算法?
a better way would be either nystrom or low rank approx

data.
r***e
发帖数: 10135
16
来自主题: CS版 - 求助关于聚类问题
统计课学过
忘记了
d****n
发帖数: 1637
17
来自主题: CS版 - 求助关于聚类问题
我觉得自己写个最好。
因为你的问题太具体话了。
另外,python scipy &numpy 直接就带kmeans
w***g
发帖数: 5958
18
来自主题: CS版 - 求助关于聚类问题
capacitated clustering?
如果数据量不大的话自己写一个最容易。
l*******s
发帖数: 1258
19
来自主题: CS版 - 求助关于聚类问题
我觉得kmeans多用于分类,你这个clustering问题 得用其他的em算法
s*********d
发帖数: 19
20
来自主题: CS版 - 求助关于聚类问题
尝试一下
d******e
发帖数: 7844
21
来自主题: CS版 - 求助关于聚类问题
... ...
EM只是一个算法,根本不是模型。
而且K-means就是做clustering的。
x*********g
发帖数: 15
z**********f
发帖数: 74
23
生物转CS,那楼主要多多努力了,尽早行动;俺当初生物PHD,读了两年差点把人读废
了,费尽千辛万苦转到Bioinfo,快毕业时找实习找工作,发现基本找不到,又费了点
时间学CS,写论文直接写了差不多大半年,很多东西都要自己从头开始学,此中辛苦不
经历的人是无法体会的;终于找到码工工作了,干活的能力还是大大不行,很多时候项
目做不出来的时候睡觉很多时候突然惊醒,向比自己小4~5岁的同事请教,遇到不nice
的被讥笑个面红耳赤。早上八点半起来就开始琢磨代码,晚上12点睡觉,几个月后终于
比较熟练了。知识面还是窄,很多时候人家探讨问题自己都不知道,还需要多努力。
一定要把Java学好,这个用的太多了,core Java的部分每天反复练,坚持写日志。如
果想做传统的web application,那么Java EE学几个框架,例如Spring整合Hibernate
,EJB3.0之类,不过这些东东配置文件调的人想吐;然后RIA前台技术学个AJAX,HTML5
,Flex之类,MVC搞搞熟;然后database稍微学点,简单的SQL会写,知道如何调SP之类
。如果想学移动平台app开发,感觉这个... 阅读全帖
z**********f
发帖数: 74
24
生物转CS,那楼主要多多努力了,尽早行动;俺当初生物PHD,读了两年差点把人读废
了,费尽千辛万苦转到Bioinfo,快毕业时找实习找工作,发现基本找不到,又费了点
时间学CS,写论文直接写了差不多大半年,很多东西都要自己从头开始学,此中辛苦不
经历的人是无法体会的;终于找到码工工作了,干活的能力还是大大不行,很多时候项
目做不出来的时候睡觉很多时候突然惊醒,向比自己小4~5岁的同事请教,遇到不nice
的被讥笑个面红耳赤。早上八点半起来就开始琢磨代码,晚上12点睡觉,几个月后终于
比较熟练了。知识面还是窄,很多时候人家探讨问题自己都不知道,还需要多努力。
一定要把Java学好,这个用的太多了,core Java的部分每天反复练,坚持写日志。如
果想做传统的web application,那么Java EE学几个框架,例如Spring整合Hibernate
,EJB3.0之类,不过这些东东配置文件调的人想吐;然后RIA前台技术学个AJAX,HTML5
,Flex之类,MVC搞搞熟;然后database稍微学点,简单的SQL会写,知道如何调SP之类
。如果想学移动平台app开发,感觉这个... 阅读全帖
w*****h
发帖数: 423
25
最近好像机器识别猫脸上了很多科技板块的头条
看了下google的paper,所谓的识别猫,就是说他们(从几千万个里)发现有一个
neuron,输入是cat得出来的activation值和非cat的出来的值呈现明显的不同的正态分
布。因为没有label,所以各大媒体说Ng他们是第一个能让机器自动识别猫的人。
首先,这个neuron的找出来,是需要人类知识的,所以是不是不能叫他严格的无监督学习
其次如果聚类算法足够快,是不是也能识别出来。
g*****l
发帖数: 424
26
【 以下文字转载自 DataSciences 讨论区 】
发信人: greatel (灵致), 信区: DataSciences
标 题: 数据科学之江湖兵器谱
发信站: BBS 未名空间站 (Sun Oct 9 16:57:10 2016, 美东)
【注】原发于微信公众号:data_wisdom
数据江湖,风起云涌。各路英豪,群雄逐鹿。
这是一个数据科学最好的时代,也是数据江湖最乱的时代。
那么在这么一个特殊的江湖里面浪,有什么兵器是值得我们去关注的呢?这篇文章列举
了一些常用方法(刀剑),并不涵盖工具与平台。就先让我们一起去看看这个排名不分
先后左右的兵器谱。
数据科学家Vincent Granville博士发表博文列举了数据科学家常用的45种技术。这是
个很适合初学者去逐个了解的列表。当然,这并不代表数据科学(统计学)的全部。虽
然他并没有提出自己的详细总结,但是有志于学习数据科学的同学不妨初步有个印象,
有不太熟悉的topic可以进一步去了解一下。另外我在后面也补充了我认为也值得学习
的领域,很多人都会在日常的数据实践中用到。多学有益于身心健康。
首先需要说明的是,这些技术... 阅读全帖
s**********o
发帖数: 14359
27
你说的很对,不一定有做DW的必要,可能就是简单的RELATIONAL DATABAST设计问题,
如果你不搞预测,相关性,聚类分析,用DW干什么
b******n
发帖数: 592
28
来自主题: Programming版 - 有无这种聚类的算法? (转载)
if you know how many clusters it has, you can use cluster algorithm, k-means?
w****i
发帖数: 964
29
来自主题: Programming版 - 有无这种聚类的算法? (转载)
try kernel density clustering
q***s
发帖数: 2243
30
来自主题: Programming版 - 有无这种聚类的算法? (转载)
Thanks!
Only know how many point and their position.

means?
q***s
发帖数: 2243
31
来自主题: Programming版 - 有无这种聚类的算法? (转载)
Thanks, Just found that there are too many paper on it and I do not know
which one will work for my problem.
Could you give more info. Thanks again!
g*********s
发帖数: 1782
32
来自主题: Programming版 - 有无这种聚类的算法? (转载)
怎么“去掉不要空间”?
q***s
发帖数: 2243
33
来自主题: Programming版 - 有无这种聚类的算法? (转载)
已经把一个平面分成很多个QuadTree Node了,当然知道哪个Node中没有分布数据了。
实际做起来,是把这些数据往平面上放,如果遇到没有Node的时候,则立即建一个。
v****s
发帖数: 1112
34
来自主题: Programming版 - 有无这种聚类的算法? (转载)
就是类似kd tree的那种算法?
g*****n
发帖数: 420
35
来自主题: Programming版 - 为什么大家都说c++水很深?

这就纯扯淡了,我为公司做过K-means,图聚类等机器学习算法,用C++做的。
O(
做视频压缩的都用C/C++/ASM,我还没见过Java写的视频压缩库,顶多上面做了一层
wrapper。
g*****n
发帖数: 420
36
来自主题: Programming版 - 为什么大家都说c++水很深?

这就纯扯淡了,我为公司做过K-means,图聚类等机器学习算法,用C++做的。
O(
做视频压缩的都用C/C++/ASM,我还没见过Java写的视频压缩库,顶多上面做了一层
wrapper。
g*****g
发帖数: 34805
37
春运大多是单向流量大,预售10日节前节后也不能一块买。本来就得买两次。
总之拿历史数据做个聚类,是能保证90%以上的交易不需要distributed transaction的。
g*****g
发帖数: 34805
38
来自主题: Programming版 - 春运火车票2个方案比较
我的划分没有问题。我提了三种划分的方案,按天,按车次,分票。具体怎么分,是要
看商业逻辑和历史数据的。比如我提了聚类来看耦合。同时,我并不需要完美划分,我
只需要绝大部分transaction不跨库即可。
"倒车的时候是第二天的车次是很正常的",这句话我没看懂。大部分车次是当天结束的
,如果要跨一天的车次,我不分不就完了吗。划分是个很灵活很有技巧的过程。
说到头,我不分库要碰到的性能问题,魏老师都要碰到。我只不过说没有不能分的库罢
了。
g*****g
发帖数: 34805
39
来自主题: Programming版 - 再给魏老师的方案打个补丁
我说的有啥错吗?买了电脑的确还能买尿片,你不能杜绝这个发生,就不能杜绝
distributed
transaction的发生。我一直强调,就是个概率问题。难道你到现在还相信车票数据库
是绝对
不可分的?把票的历史数据做个聚类统计,立刻就能找出一些不错的分法。跨库同样是
小概率事件。
不懂的东西不要不服气。
y****o
发帖数: 44
40
来自主题: Programming版 - 算法求助!
这个似乎不是聚类方面的算法问题
g*****y
发帖数: 7271
41
来自主题: Programming版 - 算法求助!
很相似的问题,聚类很多也是用EM做的。
e*******o
发帖数: 4654
42
来自主题: Programming版 - 网页分类都用啥算法library啊
聚类?
如果不是分太细,我觉得统计一下词语的频率够了。
f******k
发帖数: 43
43
一个公司信息的数据库,想检查其中是否有同一公司的多条记录,因为同一公司名可能
存在多种记法。比如ABC Tech, ABC Technology, ABC Technology, Inc, ABC, Inc等等
。尽管这些表达有可能其实是不同公司,但更有可能是同一公司。因此想把它们找出来
并返回给相关人员核查。这种核查不是针对某一家公司,而是数据库中所有公司。因此
XYZ公司可能也存在这种问题。同时仅从字符串编辑距离上看,ABC vs XYZ比与ABC Tec
hnology还小,但ABC和XYZ不太可能是同一条记录,而和ABC Technology反而更可能是同
一个公司。
当然,也存在记录输入错误,将ABC Tech输成了ABC Teck从而存在两条记录,但实际是
同一个公司。这种也希望能检查出来。
所以有什么更好的办法使聚类的结果更准确么?谢谢
w***g
发帖数: 5958
44
来自主题: Programming版 - 最小Manhattan距离
你这个问题用专有名词讲叫 find the medoid under Manhattan/L1 distance。如果对
Manhattan distance做K-Medoid聚类的话是一个超频繁调用的操作。不知道你的最小生
成树的解法是从哪儿看来的。前面database指出了解这个问题的关键,就是在
Manhattan distance下X和Y独立。不过他的解法我实在没有看明白,只能猜一下。
我们的目标是任意给P点中的一点可以用O(1)算出所有点(P到自己的距离是0,包不包含
无所谓)到该点的距离之和sum(P)。这样所有点过一遍用O(n)就可以找出最优点。
这个sum(P)又可以分解 sum_x(P_x)+sum_y(P_y)。 sum_x和sum_y的算法相同。下面用
计算sum_x加以说明。
加入有一串值x1, x2, ...,要计算任意一个xi的sum_x(xi)值。可以对所有x排序O(
nlogn)。
x1, x2, x3, ...
然后对各个i计算 left_i = x1 + x2 + ... + xi-1
right_i = x{i+1}... 阅读全帖
d******e
发帖数: 2265
45
sequencemacther的时间复杂度是O(n^2) n=30 的话,一个操作算是常数c.
你6m个计算 26分钟,4分钟1M,一分钟250k.一秒大概5k.1ms大概5个计算,还算
make sense.python的话你提高不了多少了。
简单的,多进程,多基奇。说实话,问题再大10倍也是toy problem
真想提高,看看信息检索的教科书。考虑一下怎么用cosine来聚类
在复杂的,上矩阵分解。
m***r
发帖数: 359
46
来自主题: Programming版 - 好东西传送门周报汇总 2015-03-08
机器学习周报 2015-03-08
http://ml.memect.com/weekly/2015-03-08/
2015-03-08 星期日,完整版 24 条
机器学习中距离和相似性度量方法 @陈晓鸣在硅谷
机器学习ML简史 @数盟社区
Peter Norvig解决编程问题的机器学习 @网路冷眼
欧洲人脑计划改变其治理结构 @金连文
Hopfield Neural Networks为什么没有人提了呢? @西瓜大丸子汤
2015-03-07 星期六,完整版 31 条
52nlp上HMM相关文章索引 @52nlp
TKDE: Tweet分割和在NER上的应用 @AixinSG
音乐文件聚类和可视化 @爱可可-爱生活
Jürgen Schmidhuber在Reddit上的AMA @爱可可-爱生活
学术种子网站AcademicTorrents @阳志平1949
2015-03-06 星期五,完整版 38 条
踹不倒的谷歌大狗是怎样炼成的 @杨静Lillian
DeepDive Open Datasets @爱可可-爱生活
NICAR15上的报告,总结文本可视化 @爱可可-爱生活
张雨石的《... 阅读全帖
w***g
发帖数: 5958
47
来自主题: Programming版 - 单机学习spark/hadoop的方案?
其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
样,小
机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
配置
都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
过来说搞过spark机群,这事本来就非常可疑,必然要问下去的。不需要问技术细节,
只要问是什么样的dataset,有多大,楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset,单机上各种统计聚类啥的玩得纯熟,感觉上
会好很多。
本来要做成事情就难,大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛,感觉会非常不好。
(对方如果根本不懂技术,招人... 阅读全帖
L****8
发帖数: 3938
48
来自主题: Programming版 - 神经网络研究的致命伤
今天仔细想了想 觉得多层是没必要的
假设 有三层 全连接
第一层 第二层 第三层
第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
是个线性放大器
如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
这么看来 CNN的法宝 就是 max pooling + dropout
max pooling 相当于分级模板匹配 对物体形变的一种离散化
dropout 相当于聚类
我把 max pooling 的想法用在了另一个应用上 效果不错
L****8
发帖数: 3938
49
来自主题: Programming版 - 神经网络研究的致命伤
今天仔细想了想 觉得多层是没必要的
假设 有三层 全连接
第一层 第二层 第三层
第一层和第二层之间连接关系 A=[a_ij] 链接 节点i(第一层) 和 节点j (第二层)
第二层和第三层之间连接关系 B=[b_jk] 链接 节点i(第一层) 和 节点j (第二层)
wdong所说有道理, 如果用ReLU节点+max pooling 那么多数情况输入都是正的 ReLU就
是个线性放大器
如果忽略放大倍数,第一层和第三层直接连接关系C=[c_ik] 满足 矩阵C=A*B
这么看来 CNN的法宝 就是 max pooling + dropout
max pooling 相当于分级模板匹配 对物体形变的一种离散化
dropout 相当于聚类
我把 max pooling 的想法用在了另一个应用上 效果不错
g****t
发帖数: 31659
50
来自主题: Programming版 - [bssd]AI这辆车赶快上
个人浅见:
AI这辆车赶快上.
各路CS大牛不用看书学习。
抄个算法做个新闻聚类分析的网站/app。
半年做几个版本,后面10年说不定就够混日子了。
learning while doing就够了。关键是卡位要早。
如果非要看,梯度方面看一下
Robbins, H.; Monro, S. (1951). "A Stochastic Approximation Method". The
Annals of Mathematical Statistics.
神经网看下Hinton slides够用了。
https://www.cs.toronto.edu/~hinton/nntut.html
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)