由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - NLP是使用什么技术或框架实现的?
相关主题
再晒个我的开源NoSQL项目有没有直接对pdf或者doc简历进行分析的开源软件?
学search engine哪种语言最有用?[bssd]已经很现实了
guvest听我一言Waston, K computer AI 真的来到了吗?
已经全上内存了,还要40多秒啊关于新语言的想法
ML 需不需要搞懂那些数学胡扯几句什么叫Deep Learning入门
被docker气死了廖方舟 李哲 金奖! (转载)
离成功转码还有多远?请问哪里能找到会NLP或者information retrieval的programmer?
搜索 lucene 之类是不是不流行了?我老再做次好人。
相关话题的讨论汇总
话题: nlp话题: lda话题: 应用话题: 实现话题: java
进入Programming版参与讨论
1 (共1页)
s****y
发帖数: 503
1
NLP(自然语言处理)是怎么实现的?比如用Java。
NLP的系统结构是什么样的?有没有好的教程?
g*********e
发帖数: 14401
2
用matlab
w***g
发帖数: 5958
3
NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用
到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上
ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就
是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该
是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA
等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能
就做不了了(请专家指正)。Lemur可以做。还
有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超
大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。
文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等
等,然后就是机器学习了。
理论一点的研究领域叫computational linguistics,研究怎么parse自然语言。主要是
研究各种算法。系统的话貌似斯坦福有个比较牛的parser。最直接的应用是编辑软件的
语法纠错。还有一个比较重要的应用是entity resolution,大致就是把文本中的各种
专有名词等识别出来。这个最牛的应该也是斯坦福的一个库。别的我觉得对generic
information retrieval帮助不是很大。这个方向我所知有限,等专家意见吧。
有个叫opennlp的java库,能覆盖上面这些方向。算法应该不是最新,但应该能应付实
际问题吧。
要学习的话把lucene弄弄熟,再看眼topic model,基本上就算入门了。
楼上说的matlab我觉得不是最靠谱。似乎主流还是java。

【在 s****y 的大作中提到】
: NLP(自然语言处理)是怎么实现的?比如用Java。
: NLP的系统结构是什么样的?有没有好的教程?

s****y
发帖数: 503
4

LDA
多谢wdong,码了这么多字。
topic model应该怎么学?可以看哪些东西?

【在 w***g 的大作中提到】
: NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用
: 到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上
: ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就
: 是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该
: 是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA
: 等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能
: 就做不了了(请专家指正)。Lemur可以做。还
: 有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超
: 大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。
: 文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等

w***g
发帖数: 5958
5
wikipedia和软件文档吧。要不只能读paper了。pLSA的原始paper写得非常好,值得一
读。

【在 s****y 的大作中提到】
:
: LDA
: 多谢wdong,码了这么多字。
: topic model应该怎么学?可以看哪些东西?

B***i
发帖数: 724
6
这还真毁人不倦呀
t*********h
发帖数: 941
7
nltk呀

【在 s****y 的大作中提到】
: NLP(自然语言处理)是怎么实现的?比如用Java。
: NLP的系统结构是什么样的?有没有好的教程?

z****e
发帖数: 54598
8
我有
你说说你怎么贿赂我

【在 s****y 的大作中提到】
:
: LDA
: 多谢wdong,码了这么多字。
: topic model应该怎么学?可以看哪些东西?

z****e
发帖数: 54598
9
spark spark spark
plsi & lda这两个迟早spark会去搞
tf idf这个自己动手实现就是了
最花哨的是bm25
那个公式让我感觉到这个世界深深的恨意

LDA

【在 w***g 的大作中提到】
: NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用
: 到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上
: ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就
: 是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该
: 是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA
: 等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能
: 就做不了了(请专家指正)。Lemur可以做。还
: 有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超
: 大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。
: 文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等

1 (共1页)
进入Programming版参与讨论
相关主题
我老再做次好人。ML 需不需要搞懂那些数学
昨天看slides,腾讯用go lang做LDA被docker气死了
与其无意义的争论,不如干点实事离成功转码还有多远?
我们造轮子吧,轮子成败的关键应该是搜索 lucene 之类是不是不流行了?
再晒个我的开源NoSQL项目有没有直接对pdf或者doc简历进行分析的开源软件?
学search engine哪种语言最有用?[bssd]已经很现实了
guvest听我一言Waston, K computer AI 真的来到了吗?
已经全上内存了,还要40多秒啊关于新语言的想法
相关话题的讨论汇总
话题: nlp话题: lda话题: 应用话题: 实现话题: java