l***o 发帖数: 5337 | 1 怎么确定词组?比如,如果我们观察到很多‘红花’,又观察到比它少一些的‘红花绿
叶’,用什么统计量确定应该不应该把’红花绿叶‘也作为一个词组,当已经确定’红
花‘作为词组之后?
对NLP完全不懂,请指教。谢谢! |
h***x 发帖数: 586 | 2 俺最近也在学这个,一个client要求做text analysis,赶鸭子上架,以前没搞过。
对你这个问题,用pointwise mutual information。 PMI(X,Y) estimate how much
more do events x and y co-occur than if they were independent.,用统计出现的
次数来估算出现的概率,计算很简单。
【在 l***o 的大作中提到】 : 怎么确定词组?比如,如果我们观察到很多‘红花’,又观察到比它少一些的‘红花绿 : 叶’,用什么统计量确定应该不应该把’红花绿叶‘也作为一个词组,当已经确定’红 : 花‘作为词组之后? : 对NLP完全不懂,请指教。谢谢!
|
l***o 发帖数: 5337 | 3 谢谢! 现在就去查一下!
【在 h***x 的大作中提到】 : 俺最近也在学这个,一个client要求做text analysis,赶鸭子上架,以前没搞过。 : 对你这个问题,用pointwise mutual information。 PMI(X,Y) estimate how much : more do events x and y co-occur than if they were independent.,用统计出现的 : 次数来估算出现的概率,计算很简单。
|
S******y 发帖数: 1123 | 4 you might want to look into -
nltk.ngrams
if you have installed nltk package in Python.
=============================================
欢迎浏览我的Python/Hadoop实战速成课网页 -
http://plus.google.com/109275868505226513618/about
=============================================
【在 l***o 的大作中提到】 : 谢谢! 现在就去查一下!
|
l*******s 发帖数: 1258 | 5 语言学理论上,就词组或者词的定义,有过无数的争论。
NLP上,涉及到具体的project,你可以有自己的定义。
关键是,不知道你的具体需求是什么?什么样的task?不同的需求,要用不同方法。
不妨参考一下中文分词问题,Chinese word segmentation。
【在 l***o 的大作中提到】 : 怎么确定词组?比如,如果我们观察到很多‘红花’,又观察到比它少一些的‘红花绿 : 叶’,用什么统计量确定应该不应该把’红花绿叶‘也作为一个词组,当已经确定’红 : 花‘作为词组之后? : 对NLP完全不懂,请指教。谢谢!
|