m*p 发帖数: 1331 | 1 how to find out synonyms in a huge text corpus?
e.g, "ruby on rail" and "RoR". |
m*p 发帖数: 1331 | 2 ?
【在 m*p 的大作中提到】 : how to find out synonyms in a huge text corpus? : e.g, "ruby on rail" and "RoR".
|
p****2 发帖数: 387 | 3 I think people are thinking ...
【在 m*p 的大作中提到】 : ?
|
m*********2 发帖数: 701 | 4 有啥要求?
他不是要你把Google的老本行说出来吧?
把所有字放在VP-tree里
然后再找出mininum distance
【在 m*p 的大作中提到】 : how to find out synonyms in a huge text corpus? : e.g, "ruby on rail" and "RoR".
|
y*******g 发帖数: 6599 | 5 什么是vp-tree? wiki上很不详细
【在 m*********2 的大作中提到】 : 有啥要求? : 他不是要你把Google的老本行说出来吧? : 把所有字放在VP-tree里 : 然后再找出mininum distance
|
m*p 发帖数: 1331 | 6 it seems that they are looking for stat machine learning/ info retrieval
solutions.
【在 m*********2 的大作中提到】 : 有啥要求? : 他不是要你把Google的老本行说出来吧? : 把所有字放在VP-tree里 : 然后再找出mininum distance
|
g**f 发帖数: 414 | 7 如果有很多text data,可以看 co-occurrence。
比如两个 word A,B 常常同时出现在相近的位置(small text window size)。
那么 他们有可能是近意词。
为了提高准确率,可以 extract key sentence segments 然后分析
比如原文常常是ruby on rails(ROR) 或 ruby on rails,i.e., ror.
就可以分析 ( 或 i.e.等符号。
btw,inverted lists一般都存位置信息。
But in general synonym detection and word disambiguation is a tricky problem. |
m*p 发帖数: 1331 | 8 yup, i told him it's a NER problem, which is still an open problem and
needs a well defined ontology. and he agreed.
they r just trying to see how u explore...
problem.
【在 g**f 的大作中提到】 : 如果有很多text data,可以看 co-occurrence。 : 比如两个 word A,B 常常同时出现在相近的位置(small text window size)。 : 那么 他们有可能是近意词。 : 为了提高准确率,可以 extract key sentence segments 然后分析 : 比如原文常常是ruby on rails(ROR) 或 ruby on rails,i.e., ror. : 就可以分析 ( 或 i.e.等符号。 : btw,inverted lists一般都存位置信息。 : But in general synonym detection and word disambiguation is a tricky problem.
|