由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - google interview, text mining
相关主题
转行上IT培训班可行吗? (转载)Twitter实习第一轮电面总结
湾区startup CS 职位 .Net and Rails 内推想去大公司c++好还是java好
纽约RoR工作机会有朋友电面过Groupon嘛?
google phone (failed)Ruby on Rails: test env
真高兴,终于也有猎头联系我了报面经 + 求建议 yelp vs groupon SF
与 Java 相比,Ruby 有啥优势?有关CCC请教
airbnb 主要用的什么技术? (转载)你如何给一个百万页的书建立index?
West Los Angeles 招聘 Ruby Engineer(Full time vs. Internship) Need Help to make decision
相关话题的讨论汇总
话题: text话题: ror话题: mining话题: google话题: interview
进入JobHunting版参与讨论
1 (共1页)
m*p
发帖数: 1331
1
how to find out synonyms in a huge text corpus?
e.g, "ruby on rail" and "RoR".
m*p
发帖数: 1331
2
?

【在 m*p 的大作中提到】
: how to find out synonyms in a huge text corpus?
: e.g, "ruby on rail" and "RoR".

p****2
发帖数: 387
3
I think people are thinking ...

【在 m*p 的大作中提到】
: ?
m*********2
发帖数: 701
4
有啥要求?
他不是要你把Google的老本行说出来吧?
把所有字放在VP-tree里
然后再找出mininum distance

【在 m*p 的大作中提到】
: how to find out synonyms in a huge text corpus?
: e.g, "ruby on rail" and "RoR".

y*******g
发帖数: 6599
5
什么是vp-tree? wiki上很不详细

【在 m*********2 的大作中提到】
: 有啥要求?
: 他不是要你把Google的老本行说出来吧?
: 把所有字放在VP-tree里
: 然后再找出mininum distance

m*p
发帖数: 1331
6
it seems that they are looking for stat machine learning/ info retrieval
solutions.

【在 m*********2 的大作中提到】
: 有啥要求?
: 他不是要你把Google的老本行说出来吧?
: 把所有字放在VP-tree里
: 然后再找出mininum distance

g**f
发帖数: 414
7
如果有很多text data,可以看 co-occurrence。
比如两个 word A,B 常常同时出现在相近的位置(small text window size)。
那么 他们有可能是近意词。
为了提高准确率,可以 extract key sentence segments 然后分析
比如原文常常是ruby on rails(ROR) 或 ruby on rails,i.e., ror.
就可以分析 ( 或 i.e.等符号。
btw,inverted lists一般都存位置信息。
But in general synonym detection and word disambiguation is a tricky problem.
m*p
发帖数: 1331
8
yup, i told him it's a NER problem, which is still an open problem and
needs a well defined ontology. and he agreed.
they r just trying to see how u explore...

problem.

【在 g**f 的大作中提到】
: 如果有很多text data,可以看 co-occurrence。
: 比如两个 word A,B 常常同时出现在相近的位置(small text window size)。
: 那么 他们有可能是近意词。
: 为了提高准确率,可以 extract key sentence segments 然后分析
: 比如原文常常是ruby on rails(ROR) 或 ruby on rails,i.e., ror.
: 就可以分析 ( 或 i.e.等符号。
: btw,inverted lists一般都存位置信息。
: But in general synonym detection and word disambiguation is a tricky problem.

1 (共1页)
进入JobHunting版参与讨论
相关主题
(Full time vs. Internship) Need Help to make decision真高兴,终于也有猎头联系我了
job opening - Ruby/Rails, iOS/Android and QA与 Java 相比,Ruby 有啥优势?
没法再面试了airbnb 主要用的什么技术? (转载)
有没有好心人推荐下暑假实习的机会West Los Angeles 招聘 Ruby Engineer
转行上IT培训班可行吗? (转载)Twitter实习第一轮电面总结
湾区startup CS 职位 .Net and Rails 内推想去大公司c++好还是java好
纽约RoR工作机会有朋友电面过Groupon嘛?
google phone (failed)Ruby on Rails: test env
相关话题的讨论汇总
话题: text话题: ror话题: mining话题: google话题: interview