由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 请教熟悉NLP的朋友:怎么找到phrase
相关主题
我也开了一个Text Mining 的个人Blog问一个问题
请推荐一个NLP的data set问半路出家转统计的同学几个问题
网上哪位比较熟悉分段回归的,能否简单介绍一下其基本的方法论?3个Time Phrases 的analysis 用HLM比较好?
请教RFM/LifeTimeValue/regression做client segment?最大似然估计和最大后验估计究竟是什么东东?
KS 的问题请教绘图软件
OFFER的问题,急求指点。谢谢。【R】3d plot怎么加additional points, text and segments
问一个有关credit risk modeling 的问题:不同segment 的 model score/probabilty 能较吗?请问marketing analyst 是做什么的?
什么是ad hoc analysis请学统计现在做marketing analyst的牛人们来指点一下!谢谢!!!
相关话题的讨论汇总
话题: nlp话题: python话题: 词组话题: phrase话题: hadoop
进入Statistics版参与讨论
1 (共1页)
l***o
发帖数: 5337
1
怎么确定词组?比如,如果我们观察到很多‘红花’,又观察到比它少一些的‘红花绿
叶’,用什么统计量确定应该不应该把’红花绿叶‘也作为一个词组,当已经确定’红
花‘作为词组之后?
对NLP完全不懂,请指教。谢谢!
h***x
发帖数: 586
2
俺最近也在学这个,一个client要求做text analysis,赶鸭子上架,以前没搞过。
对你这个问题,用pointwise mutual information。 PMI(X,Y) estimate how much
more do events x and y co-occur than if they were independent.,用统计出现的
次数来估算出现的概率,计算很简单。

【在 l***o 的大作中提到】
: 怎么确定词组?比如,如果我们观察到很多‘红花’,又观察到比它少一些的‘红花绿
: 叶’,用什么统计量确定应该不应该把’红花绿叶‘也作为一个词组,当已经确定’红
: 花‘作为词组之后?
: 对NLP完全不懂,请指教。谢谢!

l***o
发帖数: 5337
3
谢谢! 现在就去查一下!

【在 h***x 的大作中提到】
: 俺最近也在学这个,一个client要求做text analysis,赶鸭子上架,以前没搞过。
: 对你这个问题,用pointwise mutual information。 PMI(X,Y) estimate how much
: more do events x and y co-occur than if they were independent.,用统计出现的
: 次数来估算出现的概率,计算很简单。

S******y
发帖数: 1123
4
you might want to look into -
nltk.ngrams
if you have installed nltk package in Python.
=============================================
欢迎浏览我的Python/Hadoop实战速成课网页 -
http://plus.google.com/109275868505226513618/about
=============================================

【在 l***o 的大作中提到】
: 谢谢! 现在就去查一下!
l*******s
发帖数: 1258
5
语言学理论上,就词组或者词的定义,有过无数的争论。
NLP上,涉及到具体的project,你可以有自己的定义。
关键是,不知道你的具体需求是什么?什么样的task?不同的需求,要用不同方法。
不妨参考一下中文分词问题,Chinese word segmentation。

【在 l***o 的大作中提到】
: 怎么确定词组?比如,如果我们观察到很多‘红花’,又观察到比它少一些的‘红花绿
: 叶’,用什么统计量确定应该不应该把’红花绿叶‘也作为一个词组,当已经确定’红
: 花‘作为词组之后?
: 对NLP完全不懂,请指教。谢谢!

1 (共1页)
进入Statistics版参与讨论
相关主题
请学统计现在做marketing analyst的牛人们来指点一下!谢谢!!!KS 的问题
sample size vs. number of regressorsOFFER的问题,急求指点。谢谢。
统计背景如何找保险公司问一个有关credit risk modeling 的问题:不同segment 的 model score/probabilty 能较吗?
segmentation model什么是ad hoc analysis
我也开了一个Text Mining 的个人Blog问一个问题
请推荐一个NLP的data set问半路出家转统计的同学几个问题
网上哪位比较熟悉分段回归的,能否简单介绍一下其基本的方法论?3个Time Phrases 的analysis 用HLM比较好?
请教RFM/LifeTimeValue/regression做client segment?最大似然估计和最大后验估计究竟是什么东东?
相关话题的讨论汇总
话题: nlp话题: python话题: 词组话题: phrase话题: hadoop