第9页 - 关于clustering的讨论汇总 - 话题女王

全部话题 - 话题: clustering

s****i
发帖数: 197

来自主题: DataSciences版 - 求教! how to run python programs on a hadoop cluster

假设我用python写的code需要用到scipy numpy sklearn等这些package但是处理的数据
非常巨大在一个single machine上run需要超过50h 请问一下大家有没有方法可以
parallelize work使得我的code可以在一个hadoop cluster上运行以减少运行时间？？
谢谢~~~
====================================
具体问题是要求一个巨大数据集的k-nearest neighbor问题就是given point i, find
its kNN within data set G (over 20 million rows 一般这么大的数据集不可能直
接run的都是split成<=1m rows那种小的再算的但是貌似老板不喜欢这么做), python
sklearn package有现成的class可以用貌似使用的是ball tree/kd tree 我不知道这
个东西可不可以再hadoop上stream 如果实在不行就只能改用全部是pig编brutal force
了但是以后可能要imp... 阅读全帖

c***z
发帖数: 6348

来自主题: DataSciences版 - 求教! how to run python programs on a hadoop cluster

可以在cluster上stream你的python code
具体细节我不懂，但是你要在每台机器上装pythong，然后你的code要能够mapreduce

s****i
发帖数: 197

来自主题: DataSciences版 - 求教! how to run python programs on a hadoop cluster

谢谢楼上2位~但是现在的问题就是程序要调用sklearn/scipy/numpy这些package的函数
而且其余部分也挺麻烦用pig写不大可能写得出来...(这个...在下pig/hive学艺不精
也许板上大侠没准能做到) 可以麻烦推荐一本关于mapreduce设计的书或者教程吗??或
者cluster stream my code的方法详细说一下吗??非常感谢~~~

f********x
发帖数: 99

来自主题: DataSciences版 - 求教! how to run python programs on a hadoop cluster

最好利用现有开源项目跑，不要自己从头去实现。比如，
1. Mahout http://mahout.apache.org/
e.g. https://github.com/tdunning/knn/blob/master/src/main/java/org/apache/
mahout/knn/
2. GraphLab (www.graphlab.org)
e.g. http://docs.graphlab.org/clustering.html
3. Other projects (such, Facebook Giraph, Intel Graphbuilder and so on)

find
python
force

l*******s
发帖数: 1258

来自主题: DataSciences版 - 求教! how to run python programs on a hadoop cluster

说实话，我觉得这个没有必要上cluster和hadoop，有点太复杂了。
简单的方案反而更适合。
这不是个machine learning问题，而是个merge sorting问题。有可能我理解的不透彻
，纠正我。
从n个点中，找出top m个跟给定点距离最近的点。这就是个多路归并加堆排序啊。
单线程思路：
建一个Heap,size为m，然后就遍历数据集，把一个个点扔到Heap里排序，等遍历完了，
Heap里面的就是你要的KNN。复杂度为 O(nlogn)
多线程思路：
把数据集分成若干份，比如10份，把每份按照单线程思路进行堆排序，然后你会得到10
个size为m的heap，然后就是10路merge sorting。复杂度为O(nlogn/10) = O(nlogn)
具体实现：
python我不知道。Java里面直接用PriorityQueue这个class即可。
当然了，你要是足够自信，干脆自己实现一个heap，主要是heapify那块少难点。
多线程部分，python我也不大清楚。java的话，就用现成的线程池好了，省得你自己去
实现， java.util.concurrent... 阅读全帖

l*******s
发帖数: 1258

来自主题: DataSciences版 - 求教! how to run python programs on a hadoop cluster

有个算法可以加速一点KNN，名字忘了，基本的idea是用每个cluster的中心点代替所有
点，这样可以避免每次都遍历所有点。
不过话又说回来，我还是不认为这个必须用ML解决。找top N点，就是个堆排序加多路
归并。

s****h
发帖数: 3979

来自主题: DataSciences版 - 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？

对了，给定的半径不同，这样的cluster/圆也会不同。
每个点和其最近N个neighbor的平均值是d，1M点的d的平均值是D。
对应不同的N，D不同。
假设给定一个N，求top（M)的圆，咋弄？

T*****u
发帖数: 7103

来自主题: DataSciences版 - 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？

我没太看明白题。weight是做啥的，根据啥cluster啊

T*****u
发帖数: 7103

来自主题: DataSciences版 - 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？

是类似于二维地图的hotmap吗？是给点做cluster还是给二维地图做segmentation？

f***8
发帖数: 571

来自主题: DataSciences版 - Science杂志一篇关于clustering的新文章 (转载)

【以下文字转载自 Statistics 讨论区】
发信人: f0008 (f0008), 信区: Statistics
标题: Science杂志一篇关于clustering的新文章
发信站: BBS 未名空间站 (Wed Jul 2 07:49:51 2014, 美东)
http://m.sciencemag.org/content/344/6191/1492.abstract
Matlab代码在Suppl Info里，只有200行左右
有没有专家点评一下？

z****e
发帖数: 54598

来自主题: DataSciences版 - Science杂志一篇关于clustering的新文章 (转载)

http://eric-yuan.me/clustering-fast-search-find-density-peaks/
这里有全文

A*******s
发帖数: 3942

来自主题: DataSciences版 - Science杂志一篇关于clustering的新文章 (转载)

clustering或者outlier detection是基于feature的相似性
如果你认为那1个和剩余的99个应该归到一类的话
那就应该把可以表现这种相似性的feature加进去

z****e
发帖数: 54598

来自主题: DataSciences版 - Science杂志一篇关于clustering的新文章 (转载)

我的意思是把他们分开，那1个单独算一个cluster

f*******a
发帖数: 663

来自主题: DataSciences版 - Science上新clustering算法的分析测试

原帖见
http://www.mitbbs.com/article_t/DataSciences/6761.html
一点分析心得，与大家共享，以期抛砖引玉。
感谢zhaoce的总结一文让我看到这篇文章；也非常感谢f0008朋友在我始终无法下载附
件的情况下把附件发给了我。
===========================================================================
聚类算法能利用的一般是局部特性，如邻域点距离、基于核函数的密度估计。Mean-
shift算法就是一个非常经典的算法，以梯度方法迭代至局部密度峰值点。
这个算法的思路其实与Mean-shift很类似，虽然作者要在文章中反复说和Mean-shift不
一样，但本质上非常相近。MS以梯度寻找峰值点，而这个算法则是直接在点群中搜索峰
值点。这样做是基于一个近似假设：峰值点和点群中的某点距离不远。举个极端的例子
：只有一类，20个点均匀分布在一个圆上。MS算法可以准确聚到圆心，只要核大小足够
。而这个算法，只能聚在这20个点中的某个点上。这个假设在一般情况下可以接受，也
能... 阅读全帖

N******n
发帖数: 3003

来自主题: DataSciences版 - Science上新clustering算法的分析测试

这个文章发到science上，看着很新颖，不过好像类似的以前发到JMachine learning
Nonparametric statistical approach to clustering via mode identification
主要是计算kernal distensity,来确定mode,通过EM算法实现。

N******n
发帖数: 3003

来自主题: DataSciences版 - Science上新clustering算法的分析测试

新颖之处可能在：
一个是用图表示出可能几个cluster和区分outlier.
其他的好像没有区别。

s**********t
发帖数: 680

来自主题: DataSciences版 - 请推荐生物界认可的Clustering Analysis的免费软件

急用！请推荐生物学Hierarchical Clustering Analysis的免费软件，投稿用，所以要
学术界认可的。
用这个软件分析数据投稿，reviewer不会说这个软件不可靠。例如一些peer reviewed
publications已经用过的。最好是大多数人都用的。我第一次用，不了解，谢谢指教！

n****e
发帖数: 4990

来自主题: DataSciences版 - 请推荐生物界认可的Clustering Analysis的免费软件

cluster 也分很多种，没有编程的基础短期想用也不容易。

h********3
发帖数: 2075

来自主题: DataSciences版 - 有关clustering

如果不是很苛求精度，可以考虑BIRCH等streaming clustering算法，速度非常快。
http://www.cs.sfu.ca/CourseCentral/459/han/papers/zhang96.pdf
话说这算法提出都十多年了，也拿了所有research paper能够拿到的各种奖项，可惜大
部分统计出身的人都不太爱看database圈子的paper。

hierarchy
up

s***h
发帖数: 26

来自主题: DataSciences版 - 请问常考的cluster algorithm有哪些

kmeans和hierarchical clustering

E**********e
发帖数: 1736

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

你好，我不是计算机毕业的，所以很多东西不懂，不问清楚，也不敢上。不知能不
能提供一些指导，或私下联系？
我现在的理解就是买几个服务器（两三个吧）大概一千刀就可以搞定。然后通过自己
的局域网连上，然后在每个服务器上，包括自己的电脑设置single cluster的hadoop，
是不是这样就可以了？
另外服务器是不是个简化的电脑，只是没有声卡，显卡吗？当然我只需要用服务器来
跑hadoop。自己的主机是联想的workstation。是不是很容易装操作系统？
自己这样设置的目的，就是好好学hadoop，自己用python编程，或者练习分布式算法。
然后再练练网上的大数据项目。
xiexie .

h********3
发帖数: 2075

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

没错。服务器就是没有声卡，显卡和显示器的电脑。早期的服务器，比如银行用的都是
ibm专门制造的小型机。后来，个人电脑的power越来越强，一般cpu高，内存多的个人
电脑一样可以用来做商用服务器。workstation装的操作系统基本上也就是Linux/Unix
这些。用起来跟个人电脑没有多大区别。
如果你只是学习的目的，建议还是使用Amazon的AWS云服务。自己买机器，拼装起来，
组网等等，开销还是很大，而且也很麻烦。现在Amazon提供很多真正的大数据处理平台
给公司和高校。这些平台拥有上千个node的cluster。收费是按照时间来计算的。所以
还是建议你用Amazon的服务。不要自己去折腾这些。你个人怎么折腾，也就几台机器，
还是跟实际的大数据差别甚远。

d****n
发帖数: 12461

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

这就是我想说的事情。aws上搞个简单的cluster也就半天一天的事情，然后就可以开工
了。

E**********e
发帖数: 1736

来自主题: DataSciences版 - 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？

目的就是学习多cluster的hadoop。单个custer的hadoop自己可以跑了。但不敢跟人说
我会hadoop了。不高清hadoop的分布式架构的。至于数据量，不大，就是用来test。
一旦自己会真正用hadoop， hdfs，pig 是么处理大数据，同时练习machine learning
的分布式算法。
至于aws，不是个问题。自己在本机上调试好了，以后直接上aws。

s******a
发帖数: 184

来自主题: DataSciences版 - 也许这个问题有点模糊。如何设计建立一个Hadoop Cluster？都应该从哪些角度考虑？

也许这个问题有点模糊。如何设计建立一个Hadoop Cluster？都应该从哪些角度考虑？

w*******y
发帖数: 60932

来自主题: _DealGroup版 - 【$】Nature Valley Granola Nut Clusters, Roasted Almond, 5-Ounce Pouches (Pack of 5) $8.11 FSSS

Nature Valley Granola Nut Clusters, Roasted Almond, 5-Ounce Pouches (Pack of
5) $8.11 FSSS
I usually find these for about $2.99 per bag so this seemed like a pretty
good deal to me.
Link:
http://www.amazon.com/gp/product/B002866F0S/ref=rcxsubs_thankyo

w*******y
发帖数: 60932

来自主题: _DealGroup版 - 【$】5-pack 5-oz Nature Valley Granola Nut Clusters, Roasted Almond $8 Shipped

Amazon
Nature Valley Granola Nut Clusters, Roasted Almond, 5-Ounce Pouches (Pack of
5)
$11.78 - 15% Sub & Save - 15% code NATVALLY
= $8.24 with free shipping

w*******y
发帖数: 60932

来自主题: _DealGroup版 - 【$】3 Pounds Poppycock Original Clusters of Almonds, Pecans, and Gourmet Popcorn $5.81 shipped

Amazon has Poppycock, Original Clusters of Almonds, Pecans, and Gourmet
Popcorn , 24-Ounce Canisters (Pack of 2) or 48 ozs or 3 Lbs for $5.81
shipped with subscribe and save.

w*******y
发帖数: 60932

来自主题: _DealGroup版 - 【$】3-Pack of 8-Count Kashi GoLean Hearty All Natural Instant Hot Cereal with Clusters Honey & Cinnamon $6.93 free shipping with Prime (FSSS) from Amazon

3-Pack of 8-Count Kashi GoLean Hearty All Natural Instant Hot Cereal with
Clusters Honey & Cinnamon $6.93 free shipping with Prime (FSSS) from Amazon
3-Pack of 8-Count Kashi GoLean Hearty All Natural Instant Hot Cereal:
http://www.amazon.com/gp/product/B004745J5Q/ref=ox_sc_act_title
$6.93

n**m
发帖数: 7872

来自主题: _Xiyu版 - 庆祝我家的cluster fly都没了

总结一下：
1.fly trap对于小家小院的，弊大于利。清除苍蝇要repel，不要attract。而且fly
trap trap
的是家蝇和horse fly，对cluster fly没有诱惑力
2.苍蝇很多的时候用fly coil效果不错
3.zapper对苍蝇不是很管用，但是蛾子蚊子还是消除了不少的
4.虽然苍蝇是打不完的，但是不能不打。见一个打一个，见两个打一双！
5.这几天苍蝇的population已经少了很多，昨天除虫菊到了，放在院子里，今天就一只
都没有了。不
知道是不是除虫菊的效果

b***y
发帖数: 14281

来自主题: Military版 - 方励之的学术成就全记录

既然有人争论方的学术水平，就上网搜了一下。应该说这个水平对于一个junior
faculty来说可以算是很牛B了，但是对于老方这种senior的已经搞了一辈子的人来说，
就只能算so so。不要说是院士，离aps fellow的级别也还差了不少。引用率最高的一
篇文章还是95年到了arizona之后跟老外合作的，被引118次，这也是方唯一一篇被引用
上百次的文章。可见方励之89之前确实没有做出过什么重要的工作，他的名声和地位绝
对是靠政治得来的，当然其中部分的也是80年在中国搞科普所得，必须承认科普工作也是
有重要的社会意义的。
(BTW，有人说你这个搜索未必完整。不错，确实不能保证100％毫无遗漏。但是我
用的search engine is THE search engine everybody in this community uses today.
So, if any article is not found by this search engine, sadly, it simply doesn't matter,
because no one would ever n... 阅读全帖

t*****y
发帖数: 445

来自主题: _SeattleStartup版 - Summary of the Amazon EC2 and Amazon RDS Service Disruption

Summary of the Amazon EC2 and Amazon RDS Service Disruption in the US East
Region
Now that we have fully restored functionality to all affected services, we
would like to share more details with our customers about the events that
occurred with the Amazon Elastic Compute Cloud (揈C2 last week, our
efforts to restore the services, and what we are doing to prevent this sort
of issue from happening again. We are very aware that many of our customers
were significantly impacted by this event, and as ... 阅读全帖

h******i
发帖数: 661

来自主题: Military版 - 老方的学术水平，只够OSU当个research ast prof

你们学校ap能发这么多paper?
1989
Cosmological implications of quasar-galaxy associations, L.Z.Fang, Y.Q.Chu
and X.F. Zhu, Mod. Phys. Lett., 4, 887.
Geometrical optics in an inhomogeneous universe, L.Z.Fang and X.P.Wu,
Chinese Phys. Lett., 6, 233.
Quasar clustering and its cosmological implication, L.Z.Fang, Inter. J. Mod.
Phys. A4, 3477.
L'Osservatorio astronomico di Pechino: la sua storia, il presente, L.Z.Fang,
Scienza e Tecnica, Annuario della EST 88/89 404.
Overview on the frontier of high energy astr... 阅读全帖

S******8
发帖数: 24594

来自主题: Military版 - 为啥基础科研最要害的院校，给弄了个老将校长？

老方到美国后发的文章列表，你自己看吧：
1990
174. Biased clustering in a universe with hot dark matter and a cosmic
string, L.Z.Fang, S.P.Xiang and L.Yan, Astr. & Astrophys. 233, 1.
175. Periodicity of redshift distribution in a T-3 universe, L.Z.Fang, Astr.
& Astrophys. 239, 24.
176. An upper limit to quasar's peculiar velocity, L.Z.Fang, Y.Q.Chu, X.F.
Zhu and L.F. Wang, Inter. J. Mod. Phys., 5, 2993.
177. Quasar pair and quasar's peculiar velocity, L.Z.Fang, Developments in
general relativity, astrophysics and qu... 阅读全帖

b***y
发帖数: 14281

来自主题: Military版 - 方励之的学术成就全记录

No. The search include his early works up to 1978. Here is the same list
sorted by year.
1) The Influence of Gravitation on the Vacuum State.
By Li-Zhi Fang.
Acta Phys. Sinica 27 ( 1978) 181-18.
2) THE STRUCTURE AND STABILITY OF THE ABNORMAL NEUTRON STAR.
By Li-Zhi Fang, Qin-Yue Qu, Zhen-Ru Wang, Tan Lu, Liao-Fu Luo.
Sci.Sin.22:187-198,1979.
3) Some Recent Developments in Astrophysics. (Talk).
By Li-Zhi Fang, A. Qadir, R. Ruffini.
In *Nathiagali 1980, Proceedings, Physics and Contemporary Needs... 阅读全帖

g*******3
发帖数: 2520

来自主题: Immigration版 - 太多人要这个追加pp的原文，请版主置顶

如何决定你的I-140申请是否追加pp
作者：genegun*
Correspondence should be: genegun73@mitbbs版内信箱
Introduction
在对Eb1a和Eb1b类别的移民申请时，可以采用Premium Process（PP）的服务。和NIW
类别比较，pp是在无排期之外的另一个优点。虽然存在着额外收费1225美元的缺点，pp
还是被很多背景强大的申请者所利用，最终很快的拿到绿卡。大部分的移民申请者不
会把额外的花费列入考虑范围内，因此似乎从逻辑上分析，每个申请者都应该去pp。然
而，在众多的案例中，有非常多的人不选择pp。早期的研究表明其中的原因是很多人
认为PP会促进本来不该被Request for Evidence (RFE)的案例被RFE, 然而另外一些人
持不同观点。这就造成在律师界和申请者中对此问题的长期争论。给很多申请者带来很
大困扰，长期纠结是否pp的问题。本文的主要目的不是对 pp是否会带来RFE来进行论证
，而是要从技术的角度来探讨如何决定是否pp。有证据表明对是否pp的决定取决于经济
条件和需要绿卡的紧迫性。这两点... 阅读全帖

A**H
发帖数: 4797

来自主题: Statistics版 - 请教一个频率优化问题（相关性？）

谢谢
我根据这里的方法做的clustering
http://www.statmethods.net/advstats/cluster.html
用的其中的Partitioning这一节，我得到了一个"Within groups sum of squares"
versus "Number of Clusters" plot. 从这个plot里面我选了clusters = 5，然后做下面
fit <- kmeans(mydata, 5) # 5 cluster solution
# get cluster means
aggregate(mydata,by=list(fit$cluster),FUN=mean)
# append cluster assignment
mydata <- data.frame(mydata, fit$cluster)
我得到了哪个项目应该归到哪一类里面
感觉到这里，似乎就已经做完了。。。。。我知道了哪些项目应该编排到一起
然后，我再根据下面这个
http://www.stat.columbia.edu/~martin/W2024/R3.pdf
做anov... 阅读全帖

r*c
发帖数: 167

来自主题: JobHunting版 - G家，A家，E 家， H家， E家面筋，赞人品喽~

//矩阵求连接图
#include
#include
#include
#include
#include
using namespace std;
enum ColorEnum{White, Black};
struct Cell
{
int row;
int col;
Cell(int r, int c): row(r), col(c){}
};
struct Cluster{
bool visited;
vector vec;
Cluster(int i, int j) : visited(false) {
vec.push_back(Cell( i, j));
}
bool isWithinRange(const Cell& a, const Cell& b){
return abs(a.row - b.row) <= 1 ... 阅读全帖

r*c
发帖数: 167

来自主题: JobHunting版 - G家，A家，E 家， H家， E家面筋，赞人品喽~

g*****g
发帖数: 34805

来自主题: JobHunting版 - L家的一道设计题

我给个分布式设计，过面试应该够了。
每个share产生一个event，发给一个dispatch cluster，这个cluster干的活就是根据
url算个hash出来，分配给下一个count cluster，所以相同的url会发给同一个结点处
理。count cluster上每个结点需要一个存一个根据时间排列的queue，每个dispatch
event会产生一个当前时间的+1 job和5分钟后的-1 job。queue可以用诸如Cassandra
DB time based UUID实现，scheduled excutor可以用Java的
ScheduledExecutorService实现。这个结点可以用ConcurrentSkipListMap 维护所有
link count并快速获得top 5 link。count cluster是最大的一个cluster，比如说有
1000个结点。
接下来如果count cluster很大，可以有一个aggregation cluster，干的事情是周期性
poll (比如说每5秒) count cluster 的一部分获得所有top 5排... 阅读全帖

d****o
发帖数: 1055

来自主题: JobHunting版 - 详解知名网站的技术发展历程(zz)

对于大家复习design problem有帮助
互联网已经发展多年，其中不乏脱颖而出者，这些网站多数都已存在了接近10年或10
年以上，在如此长时间的发展过程中，除了业务上面临的挑战，在技术上也面临了很多
的挑战。我挑选了一些Alexa排名较前的网站(排名截止到2012年4月21 日)，看看它们
在技术上是如何应对业务发展过程中的挑战的。
Google 目前Alexa排名第1。它诞生于1997年，当时是一个研究性项目，每个月
build一次索引，build出来的索引通过sharding(shard by doc)的方式分散到多台服务
器(Index Server)上，具体的网页数据同样通过sharding的方式分散到多台服务器(Doc
Server)上，当用户提交请求时，通过前端的一台服务器将请求提交给Index Server获
得打了分的倒排索引，然后从Doc Server提取具体的网页信息(例如网页标题、搜索关
键词匹配的片段信息等)，最终展现给用户。
随着索引的网页增加，这个结构可通过增加Index Server以及Doc Server来存储索
引以及网页的数据，但仍然会面临其他... 阅读全帖

g*******3
发帖数: 2520

来自主题: Immigration版 - 再一次重申关于pp的问题---所有的case都该PP

最近又有很多人在讨论这个pp不pp的问题。我根据我的那个longitudinal study 再重申一遍：（没看过以前文章的，看http://www.mitbbs.com/article_t/Immigration/32306731.html）
PP不PP，都不会影响最终结果，只有你所在的Cluster会决定结果。我把我以前发表的那篇关于pp的文章的图2 (容易获批的cluster)和图3(比较tough的cluster) 给大家更新下，大家就明白了。
我把4月份（已经等了6个多月了）批复的case给大家看一下，大家看容易批准的
cluster中 SRC1290007598果真Approved了，我预料SRC1290007505必然也会批准。
大家再看4月对那个tough cluster的批复情况： 4个批复中3个如预料中的被RFE. 可以预测那个initial review的SRC1290008272 凶多吉少。不管他想等多久。
所以，我的观点：
1，只存在是initial就pp还是追加pp的差别 ---决定是否避开杀手IO.
2，所有的case,如果不想等，都应该... 阅读全帖

f*******e
发帖数: 3433

来自主题: SanFrancisco版 - CDC releases preliminary findings on Palo Alto suicide clus (转载)

【以下文字转载自 Parenting 讨论区】
发信人: flyingpie (pie), 信区: Parenting
标题: CDC releases preliminary findings on Palo Alto suicide clusters
发信站: BBS 未名空间站 (Wed Aug 16 21:53:31 2017, 美东)
In light of the recent suicides of several Palo Alto teens, the Center for
Disease Control and Prevention (CDC) began an epidemiological study in
February 2016 that investigated previous youth suicide clusters. Last week,
the CDC released preliminary findings of their study, which revealed that
mental health problems, re... 阅读全帖

y******n
发帖数: 421

来自主题: NKU版 - 南开校友--专访张晓波教授

张晓波，男，1966年出生，现任北京大学国家发展研究院国家“千人计划”讲座教授，
国际SSCI期刊《China Economic Review》主编之一，主要研究发展经济学、农业经济
学和中国经济等领域。近五年来先后在《Journal of Political Economy》、《
Journal ofDevelopment Economics》、《Journal of International Economics》等
权威英文期刊和《管理世界》、《经济学季刊》等国内权威期刊发表论文数十篇；出版
《中国产业集群的演化与发展》、《Narratives of ChineseEconomic Reforms: How
Does China Cross the River?》、《Regional Inequality inChina: Trends,
Explanations and Policy Responses》、《Governing Rapid Growth inChina:
Equity and Institutions》等学术专著多部（含合著）。在国际知名经济学家网站（
IDEA... 阅读全帖

y******n
发帖数: 421

来自主题: NKU版 - 南开校友--专访张晓波教授

j*****h
发帖数: 62

来自主题: CS版 - 请教一个聚类的问题

假如我现在有n个bit string. (每个string由m个非0即1的bit组成)。任意两个
bit string之间的距离定义为他们xor以后结果的bit string中出现1的次数。
多个bit string可以通过bit or操作聚成一个bit string cluster.请问如何
设计一个算法，给定n个这样的bit string，以及给定k个cluster数目限制，
找到最优的聚类，使得所有的n个bit string到他们各自的聚类以后，对应的
bit string cluster的距离之和最小。
我想到用bottom up的用贪婪算法heuristic。初始的时候，每个bit string代表一个
cluster. 然后每一步迭代，找出距离最近的两个cluster，or成一个新的
cluster,这样cluster数目减少一个。迭代直到cluster 总数等于k结束。
可是数学上我不知道如何证明这个算法得到的是否是最优解，如果不是，这
个approximation离最优解有多大差距。

z***y
发帖数: 7151

来自主题: Database版 - SQL 2008 Create Index vs Rebuild Index (Alter Index)

When you alter clustered index, all non-clustered indexes will repointed to
new clustered index. Also since we only alter clustered index database
engine will not spend time inventory the existing constraints--they will be
left untouched.
However, when you drop the clustered index, all indexes(clustered and non
clustered) are gone. All constraints will be modified/removed.
Actually my first statement is not 100% correct I just realized... it is
true that non clustered indexes will not be dropped

a*s
发帖数: 425

来自主题: Statistics版 - 关于一个预测问题

我不是学统计的，
但是，现在工作中有一个关于预测的问题，想请教大家
问题是这样的，
假设每个observation 有一组变量Xi,然后，我需要预测Y，
如果，直接建模，比如线性回归，decision tree这些，效果都不好，几乎不可预测，
然后，我的想法是先根据Xi，对这些observation先做clustering,
再根据clustering的结果，对每个cluster分别建模，
但是这样效果也不好，
我现在对于每个observation还有一组变量Zi，但是，问题是，这组Z变量，在预测Y的
时候，是不可知的，是在预测Y之后，随着时间记录的信息，根据Z可以很好的cluster
所有的observation,然后，用X就可以很好的预测Y
我想问的是，有没有什么系统的方法，可以利用起这组数据Z，来提高X对于Y的预测
我的想法是用数据Z cluster所有的observation,
然后，根据clustering的结果，比如，对于observation j, c_j是j所属的cluster,
试图建立变量X 和 c 的关系，
然后，根据cluster选择预测模型。
我不知道，我这样... 阅读全帖

j****m
发帖数: 8

来自主题: WaterWorld版 - 发现国内一个学者在同一个会议上发论文10多篇，其中有些有问题，怎么报告？

看到有人指出在icmlc 2011会议中同一个作者发表论文达10多篇。本文深知做学术
的不易，觉得在短时间内能在同一个会议上发表10多篇论文，不是造假抄袭，就是粗制
滥造。于是随便找了一篇搜索了一下。发现不如所料，亩产万斤果然是有问题的。
请相关专业人员鉴定是否属于抄袭，以及是否还有其他未发现之处。
抄袭文（以下简称USOM文）
Le Li, Xiaohang Zhang, Zhiwen yu, Zijian Feng, Ruiping Wei, USOM: Mining
and Visualizing Uncertain Data Based on Self-Organizing Maps, Proceedings
of the 2011 International Conference on machine Learning and Cybernetics,
804-809
作者单位：
School of Computer Science and Engineering, South China University of
Technology, Guangzhou, China
... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天