d*****u 发帖数: 17243 | 1 我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下
看什么书也行。
我现在要对一些语言进行分类,原则上有两个方法。一是基于同源特征,就是把那些语
言跟他们共同的祖语进行比较(feature矩阵我都有了),看从古到今有哪些变化。有
相同变化的亲缘更近。另外一个就是不管同源性,把feature直接进行相互比较,然后
clustering。
用同源特征的话,这里面还有两个考虑:
一是有些变化其实是同质的,也就是不相互independent。这里面有些是可以事先规定
的,但是我也想顺便看看哪些变化最correlated with each other。
二是有些变化是普遍的语言现象,出现概率大,所以在分类时的权重应该小一些。
先问这么多吧。不知道有什么建议呢?Thanks. |
g*******y 发帖数: 380 | 2 我ft,居然验证失败,我白敲了半天。
建议不敢当,有错误的地方有多指正。
首先觉得你这个思路和生物上的生物分类学的方法比较接近,可以试试找他们的文章看
看,或者直接看multiple variate analysis的书。
从统计的角度,我学到的皮毛:先用SAS做个scatter plots的矩阵,便于你初步检查每
个变量间的相关性。factor analysis的输出结果里可以检查相关性。然后选择合适的
factors进行聚类分析。 |
d*****u 发帖数: 17243 | 3 多谢。
有关生物分类的有什么经典paper吗?
或者有那些journal?
印象中好像人类学里搞过不少这种东西。
【在 g*******y 的大作中提到】 : 我ft,居然验证失败,我白敲了半天。 : 建议不敢当,有错误的地方有多指正。 : 首先觉得你这个思路和生物上的生物分类学的方法比较接近,可以试试找他们的文章看 : 看,或者直接看multiple variate analysis的书。 : 从统计的角度,我学到的皮毛:先用SAS做个scatter plots的矩阵,便于你初步检查每 : 个变量间的相关性。factor analysis的输出结果里可以检查相关性。然后选择合适的 : factors进行聚类分析。
|
g*******y 发帖数: 380 | 4 这个我就不知道了。咱就是半瓶子醋晃荡,借着讨论来学点东西的主。
我不是学生物的,这个是我们系必修课里的一点内容,基础课被压缩到一个学期的三分
之一,大概也就一个月的时间,讲的也很零碎。中文是不是这么叫我都不知道。英文大
概是这么几个词:systematics, taxonomy, cladistics, or phenetics。
【在 d*****u 的大作中提到】 : 多谢。 : 有关生物分类的有什么经典paper吗? : 或者有那些journal? : 印象中好像人类学里搞过不少这种东西。
|
D******n 发帖数: 2836 | 5 what do u mean by homogeneity? If they are homologous, ur features should
pick it up
or u can say homogeneity is defined by the similarity between the feature
vectors of two languages which may or may not overlap with the ones u are
interested in.
in biology ppl build phylogenic trees,
u can do a simple hierachical clustering of the langauges using the
euclidian distanc of the feature vectors.
我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下
看什么书也行。
我现在要对一些语言进行分类,原则上有两个方法。一是基于同源特征,就是把那些语
言跟他们共同的祖语进行比较(fe
【在 d*****u 的大作中提到】 : 我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下 : 看什么书也行。 : 我现在要对一些语言进行分类,原则上有两个方法。一是基于同源特征,就是把那些语 : 言跟他们共同的祖语进行比较(feature矩阵我都有了),看从古到今有哪些变化。有 : 相同变化的亲缘更近。另外一个就是不管同源性,把feature直接进行相互比较,然后 : clustering。 : 用同源特征的话,这里面还有两个考虑: : 一是有些变化其实是同质的,也就是不相互independent。这里面有些是可以事先规定 : 的,但是我也想顺便看看哪些变化最correlated with each other。 : 二是有些变化是普遍的语言现象,出现概率大,所以在分类时的权重应该小一些。
|
d*****u 发帖数: 17243 | 6 嗯,实际上历史语言学上的“同源特征”往往是假定的,
因为谁也不知道古代语言什么样子。
都是用reconstruction的方法做出来,然后再拿去用。
这个可能跟生物里的基因不同。
但是古生物学也有单纯研究化石形状的,可能就差不多了。
所以我的目的之一就是看用那些“同源特征”划分的类别与单纯比较特征得出的结果是
否一致。
另外,以前的研究没有强调那些同源特征的相关性,所以independent假设可能太强
我想看看哪些特征是相关的
【在 D******n 的大作中提到】 : what do u mean by homogeneity? If they are homologous, ur features should : pick it up : or u can say homogeneity is defined by the similarity between the feature : vectors of two languages which may or may not overlap with the ones u are : interested in. : in biology ppl build phylogenic trees, : u can do a simple hierachical clustering of the langauges using the : euclidian distanc of the feature vectors. : : 我没什么统计的基础,在这里请教一个问题。不一定要有现成的答案,各位能指点一下
|
D******n 发帖数: 2836 | 7 so the features u picked up are quite different with the canonical "
homogeneity" features? So basically you wanna compare ur features with those
cannoical features in terms of clustering ?
without looking at the raw data and understanding the lingistics underlying
this problem i dont have much to say. But if u concern about co-linearity ,
u might google feature selection,mrmr . Clustering is non-supervised
learning though. dependance amoungst features might not harm(not sure, hope
some1 gives
【在 d*****u 的大作中提到】 : 嗯,实际上历史语言学上的“同源特征”往往是假定的, : 因为谁也不知道古代语言什么样子。 : 都是用reconstruction的方法做出来,然后再拿去用。 : 这个可能跟生物里的基因不同。 : 但是古生物学也有单纯研究化石形状的,可能就差不多了。 : 所以我的目的之一就是看用那些“同源特征”划分的类别与单纯比较特征得出的结果是 : 否一致。 : 另外,以前的研究没有强调那些同源特征的相关性,所以independent假设可能太强 : 我想看看哪些特征是相关的
|
d*****u 发帖数: 17243 | 8
those
我想feature还是基本一样的
简单说,过去的“同源特征法”就是比较各种现代语言和拟构好的古代语言
从古今feature mapping里找差异
有时还定性地给一些很不同的权重
至于这些mapping怎么量化,我还没想过
另外一种alternative就是不管什么古代语言
直接比较现代语言的distance
这样直接用feature vectors就可以了
我想关于同源特征至少有两点考虑
一是语言里有些变化是很常见的,有些是罕见的,罕见的系统特征是主要分类指标
这个用海量语言数据也能自己得出,但是对小部分data进行整理时是不行的
这就不像基因突变在哪里概率都认为是一样的,而且都很小
所以特种基因非继承性重现的概率被认为是0
更重要的是,具体到历史事件上,
有些变化发生得早,是分类的决定指标;有些发生得晚,是分类的次要指标
这些变化的早晚有些是根据数据推定的,有些是根据文献之类得出的
不过我觉得这点在实际操作时影响可能不大,大部分跟实际数据是自然吻合的
underlying
,
hope
【在 D******n 的大作中提到】 : so the features u picked up are quite different with the canonical " : homogeneity" features? So basically you wanna compare ur features with those : cannoical features in terms of clustering ? : without looking at the raw data and understanding the lingistics underlying : this problem i dont have much to say. But if u concern about co-linearity , : u might google feature selection,mrmr . Clustering is non-supervised : learning though. dependance amoungst features might not harm(not sure, hope : some1 gives
|