L****Y 发帖数: 355 | 1 申请的Fulltime, G, F都已挂。半年后再来。
F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
http://www.mitbbs.com/article_t0/JobHunting/32364859.html
G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
generation,一次关于BST),现发设计题:
1) -- 1 million scanned books. One book == 1 directory, each page is a file
in the directory
-- have OCR text for every page
-- no scanning mistakes: no skipped pages, no duplicate pages
OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
word recognized as two...
Find the same books.
2) -- we want to design a scalable web-crawling system
-- what are the major system components?
-- what considerations/tradeoffs would you make?
第二题虽然平时在平时读的paper中出现过, 但是这块还没认真思考过。当然,我还是
讲了下方法和我的理解。
总之,这次G,F都挂了。 没系统复习coding和design,平时太忙, 老板手下一堆活。
6月还有个会议的deadline,还在忙毕业。
将要面G,F的同学们都好好加油!!
好男儿下半年再来!请问6个月以后,可以重新申请对吧? 顺便为即将到来的onsite求
bless啦!! |
s*******s 发帖数: 1031 | 2 听说G家是一年。
不是很确定。
加油!
file
one
【在 L****Y 的大作中提到】 : 申请的Fulltime, G, F都已挂。半年后再来。 : F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这: : http://www.mitbbs.com/article_t0/JobHunting/32364859.html : G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency : generation,一次关于BST),现发设计题: : 1) -- 1 million scanned books. One book == 1 directory, each page is a file : in the directory : -- have OCR text for every page : -- no scanning mistakes: no skipped pages, no duplicate pages : OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
|
L****Y 发帖数: 355 | 3 这次申请G,F没有找人refer,全是网投fresh graduate的full time的, 不过
recruiter效率都很高,第2,3天就联系了。
如果找人refer的话,冷冻期应该不会超过半年吧。
【在 s*******s 的大作中提到】 : 听说G家是一年。 : 不是很确定。 : 加油! : : file : one
|
N*D 发帖数: 3641 | 4 也是一年
【在 L****Y 的大作中提到】 : 这次申请G,F没有找人refer,全是网投fresh graduate的full time的, 不过 : recruiter效率都很高,第2,3天就联系了。 : 如果找人refer的话,冷冻期应该不会超过半年吧。
|
l*****j 发帖数: 5163 | |
S********Y 发帖数: 207 | |
d**********x 发帖数: 4083 | 7 大体搜了一下,text similarity居然好像没看到一个公认比较好的算法。。?我不是
业内的,不是特懂
不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
所以1)是不是应该先map-reduce做bigram count,视情况整合低频的bigram,然后按照
bigram count建立一个排序,再次用map-reduce排序?1 million本书,就算bigram两
两比较消耗很大,如果算法设计得好应该也不会比terasort慢吧。。。
file
one
【在 L****Y 的大作中提到】 : 申请的Fulltime, G, F都已挂。半年后再来。 : F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这: : http://www.mitbbs.com/article_t0/JobHunting/32364859.html : G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency : generation,一次关于BST),现发设计题: : 1) -- 1 million scanned books. One book == 1 directory, each page is a file : in the directory : -- have OCR text for every page : -- no scanning mistakes: no skipped pages, no duplicate pages : OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
|
K********y 发帖数: 47 | 8 这个例子里每本书的页数是准确的,每页的词数可能有一点偏差。或许可以先给每本书
整理一个每页词数的数组,10^6本书按页数分bucket,然后同一个bucket里两两比较算
内积或者root mean square error?相似的书可以进一步逐词对照比较。
【在 d**********x 的大作中提到】 : 大体搜了一下,text similarity居然好像没看到一个公认比较好的算法。。?我不是 : 业内的,不是特懂 : 不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法 : 所以1)是不是应该先map-reduce做bigram count,视情况整合低频的bigram,然后按照 : bigram count建立一个排序,再次用map-reduce排序?1 million本书,就算bigram两 : 两比较消耗很大,如果算法设计得好应该也不会比terasort慢吧。。。 : : file : one
|
f*********m 发帖数: 726 | 9 每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书?
file
one |
T********3 发帖数: 3 | 10 edit distance 那得多大计算量啊
【在 f*********m 的大作中提到】 : 每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书? : file : one
|
|
|
c********s 发帖数: 817 | |
y*******o 发帖数: 6632 | 12 我脚的先比directory size排除不同的
然后是file count排除不同的
file count 一样的,比file size,one by one
95% file size一样的,随机抽几个file 比内容, 如果内容大概一样就是一本书了
【在 K********y 的大作中提到】 : 这个例子里每本书的页数是准确的,每页的词数可能有一点偏差。或许可以先给每本书 : 整理一个每页词数的数组,10^6本书按页数分bucket,然后同一个bucket里两两比较算 : 内积或者root mean square error?相似的书可以进一步逐词对照比较。
|
p******m 发帖数: 544 | 13 一般的书不是都有关于多少页的信息么?
那么OCR TEXT的结果中间应该也有这个信息了,那么首先可以根据这个大概的找到那些
folder里面的书的页数在这个范围呢。
在这个小范围内按页面顺序抽取一些页面做OCR,与OCR TEXT结果算WER,取top应该就
差不多了吧。
【在 y*******o 的大作中提到】 : 我脚的先比directory size排除不同的 : 然后是file count排除不同的 : file count 一样的,比file size,one by one : 95% file size一样的,随机抽几个file 比内容, 如果内容大概一样就是一本书了
|
w******8 发帖数: 1078 | |
M*********r 发帖数: 70 | 15 Bless!
file
one
【在 L****Y 的大作中提到】 : 申请的Fulltime, G, F都已挂。半年后再来。 : F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这: : http://www.mitbbs.com/article_t0/JobHunting/32364859.html : G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency : generation,一次关于BST),现发设计题: : 1) -- 1 million scanned books. One book == 1 directory, each page is a file : in the directory : -- have OCR text for every page : -- no scanning mistakes: no skipped pages, no duplicate pages : OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
|