s****y 发帖数: 503 | 1 NLP(自然语言处理)是怎么实现的?比如用Java。
NLP的系统结构是什么样的?有没有好的教程? |
g*********e 发帖数: 14401 | |
w***g 发帖数: 5958 | 3 NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用
到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上
ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就
是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该
是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA
等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能
就做不了了(请专家指正)。Lemur可以做。还
有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超
大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。
文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等
等,然后就是机器学习了。
理论一点的研究领域叫computational linguistics,研究怎么parse自然语言。主要是
研究各种算法。系统的话貌似斯坦福有个比较牛的parser。最直接的应用是编辑软件的
语法纠错。还有一个比较重要的应用是entity resolution,大致就是把文本中的各种
专有名词等识别出来。这个最牛的应该也是斯坦福的一个库。别的我觉得对generic
information retrieval帮助不是很大。这个方向我所知有限,等专家意见吧。
有个叫opennlp的java库,能覆盖上面这些方向。算法应该不是最新,但应该能应付实
际问题吧。
要学习的话把lucene弄弄熟,再看眼topic model,基本上就算入门了。
楼上说的matlab我觉得不是最靠谱。似乎主流还是java。
【在 s****y 的大作中提到】 : NLP(自然语言处理)是怎么实现的?比如用Java。 : NLP的系统结构是什么样的?有没有好的教程?
|
s****y 发帖数: 503 | 4
LDA
多谢wdong,码了这么多字。
topic model应该怎么学?可以看哪些东西?
【在 w***g 的大作中提到】 : NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用 : 到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上 : ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就 : 是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该 : 是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA : 等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能 : 就做不了了(请专家指正)。Lemur可以做。还 : 有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超 : 大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。 : 文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等
|
w***g 发帖数: 5958 | 5 wikipedia和软件文档吧。要不只能读paper了。pLSA的原始paper写得非常好,值得一
读。
【在 s****y 的大作中提到】 : : LDA : 多谢wdong,码了这么多字。 : topic model应该怎么学?可以看哪些东西?
|
B***i 发帖数: 724 | |
t*********h 发帖数: 941 | 7 nltk呀
【在 s****y 的大作中提到】 : NLP(自然语言处理)是怎么实现的?比如用Java。 : NLP的系统结构是什么样的?有没有好的教程?
|
z****e 发帖数: 54598 | 8 我有
你说说你怎么贿赂我
【在 s****y 的大作中提到】 : : LDA : 多谢wdong,码了这么多字。 : topic model应该怎么学?可以看哪些东西?
|
z****e 发帖数: 54598 | 9 spark spark spark
plsi & lda这两个迟早spark会去搞
tf idf这个自己动手实现就是了
最花哨的是bm25
那个公式让我感觉到这个世界深深的恨意
LDA
【在 w***g 的大作中提到】 : NLP在应用这一块主要是information retrieval, 最典型的应用就是web搜索引擎。用 : 到的技术是倒排表,TF.IDF以及比较花哨点的pLSA, LDA等。再推广一些的话可以扯上 : ranking, clustering等等。这类应用对语言模型的假设大致是vector model,最多就 : 是n-gram,主要是靠大数据和用户反馈等使得搜索结果比较靠谱。应用最多的系统应该 : 是lucene,还有sphinx。学术界用来搞研究用lemur(C++)的也比较多。如果用pLSA,LDA : 等从文本抽取特征,那么就无法用倒排表了,只能用K-NN搜索。这个我觉得lucene可能 : 就做不了了(请专家指正)。Lemur可以做。还 : 有一个叫gensim的python库是用来做这个的,不知道是不是靠谱。还有一个应用是在超 : 大规模上找相似文本,甚至连倒排表都不够了,需要用到simhash和LSH等技术。 : 文本向量和topic model产生的特征向量可以用一般的机器学习方法做各种分类预测等
|