D***r 发帖数: 7511 | 1 我们在做一个项目。简单说就是假设一个词在一个句子里出现的概率p(w)有一个分布。
如果两个词都在同一句子里出现,则有一个联合分布p(ww')。
然后如果两个词经常一起出现,则可能意义相关(比如可能是一个词组,或者一个词代
表另一个词的属性,等等)
方法之一是用假设检验,也就是看p(ww')和p(w)*p(w')的关系。
我觉得应该用one-tailed test,因为我们是想找经常一起出现的
也就是p(ww')显著大于p(w)p(w')的。
所以H1:p(ww')>p(w)p(w')
但是负责这个项目的老师觉得应该用two-tailed test
H1: p(ww')!=p(w)p(w')
我觉得如果用two-tailed,算出的可能好多是互相排斥的词,根本就不make sense。
比如可能"白色" "黑熊"成了significant 的结果。
你们觉得呢? |
m*********n 发帖数: 413 | 2 这是text mining里面很standard的找topic的方式吧,放狗搜一下吧
应该有比这更fancy的办法。
【在 D***r 的大作中提到】 : 我们在做一个项目。简单说就是假设一个词在一个句子里出现的概率p(w)有一个分布。 : 如果两个词都在同一句子里出现,则有一个联合分布p(ww')。 : 然后如果两个词经常一起出现,则可能意义相关(比如可能是一个词组,或者一个词代 : 表另一个词的属性,等等) : 方法之一是用假设检验,也就是看p(ww')和p(w)*p(w')的关系。 : 我觉得应该用one-tailed test,因为我们是想找经常一起出现的 : 也就是p(ww')显著大于p(w)p(w')的。 : 所以H1:p(ww')>p(w)p(w') : 但是负责这个项目的老师觉得应该用two-tailed test : H1: p(ww')!=p(w)p(w')
|
D***r 发帖数: 7511 | 3 是的,假设检验比较简单而已
我们先这样筛一下
不过如果有更好的办法,也可以直接用别的
【在 m*********n 的大作中提到】 : 这是text mining里面很standard的找topic的方式吧,放狗搜一下吧 : 应该有比这更fancy的办法。
|
m*********n 发帖数: 413 | 4 这样做假设检验会不会有速度问题,毕竟是 o(w**2)
w: number of words. 如果我没理解错的话。 |
D***r 发帖数: 7511 | 5 是比较慢
不过我们只挑选名词和形容词(已经有词性标注)
corpus也不是特别大,所以用python code运行一下也没多久
【在 m*********n 的大作中提到】 : 这样做假设检验会不会有速度问题,毕竟是 o(w**2) : w: number of words. 如果我没理解错的话。
|