由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 发G店面面经(已挂),为即将到来的onsite求bless
相关主题
问一道google统计句子相似度的问题能在这里问个算法题目么?
这面经题怎么用动态规划做呢?bloomberg已挂
弱问一道G家电面题amazon面经,已挂。
这个题怎么做啊?发bloomberg面经 [电面,目测已挂,赞人品]
问个海量数据处理问题a d d e p a r面经, 目测已挂
雅虎面经Linked电面分享,挺好的题 应该已挂
bloomberg intern 面经,已挂,求板上诸位大神refer个intern[已挂]亚麻sde coding test screen题目及吐槽
G家电面,已挂F昂赛面经,已挂
相关话题的讨论汇总
话题: ocr话题: coding话题: 已挂话题: bless话题: file
进入JobHunting版参与讨论
1 (共1页)
L****Y
发帖数: 355
1
申请的Fulltime, G, F都已挂。半年后再来。
F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
http://www.mitbbs.com/article_t0/JobHunting/32364859.html
G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
generation,一次关于BST),现发设计题:
1) -- 1 million scanned books. One book == 1 directory, each page is a file
in the directory
-- have OCR text for every page
-- no scanning mistakes: no skipped pages, no duplicate pages
OCR word error rate is 5%. Misrecognitions, two words recognized as one, one
word recognized as two...
Find the same books.
2) -- we want to design a scalable web-crawling system
-- what are the major system components?
-- what considerations/tradeoffs would you make?
第二题虽然平时在平时读的paper中出现过, 但是这块还没认真思考过。当然,我还是
讲了下方法和我的理解。
总之,这次G,F都挂了。 没系统复习coding和design,平时太忙, 老板手下一堆活。
6月还有个会议的deadline,还在忙毕业。
将要面G,F的同学们都好好加油!!
好男儿下半年再来!请问6个月以后,可以重新申请对吧? 顺便为即将到来的onsite求
bless啦!!
s*******s
发帖数: 1031
2
听说G家是一年。
不是很确定。
加油!

file
one

【在 L****Y 的大作中提到】
: 申请的Fulltime, G, F都已挂。半年后再来。
: F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation,一次关于BST),现发设计题:
: 1) -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

L****Y
发帖数: 355
3
这次申请G,F没有找人refer,全是网投fresh graduate的full time的, 不过
recruiter效率都很高,第2,3天就联系了。
如果找人refer的话,冷冻期应该不会超过半年吧。

【在 s*******s 的大作中提到】
: 听说G家是一年。
: 不是很确定。
: 加油!
:
: file
: one

N*D
发帖数: 3641
4
也是一年

【在 L****Y 的大作中提到】
: 这次申请G,F没有找人refer,全是网投fresh graduate的full time的, 不过
: recruiter效率都很高,第2,3天就联系了。
: 如果找人refer的话,冷冻期应该不会超过半年吧。

l*****j
发帖数: 5163
5
bless
S********Y
发帖数: 207
6
bless
d**********x
发帖数: 4083
7
大体搜了一下,text similarity居然好像没看到一个公认比较好的算法。。?我不是
业内的,不是特懂
不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
所以1)是不是应该先map-reduce做bigram count,视情况整合低频的bigram,然后按照
bigram count建立一个排序,再次用map-reduce排序?1 million本书,就算bigram两
两比较消耗很大,如果算法设计得好应该也不会比terasort慢吧。。。

file
one

【在 L****Y 的大作中提到】
: 申请的Fulltime, G, F都已挂。半年后再来。
: F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation,一次关于BST),现发设计题:
: 1) -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

K********y
发帖数: 47
8
这个例子里每本书的页数是准确的,每页的词数可能有一点偏差。或许可以先给每本书
整理一个每页词数的数组,10^6本书按页数分bucket,然后同一个bucket里两两比较算
内积或者root mean square error?相似的书可以进一步逐词对照比较。

【在 d**********x 的大作中提到】
: 大体搜了一下,text similarity居然好像没看到一个公认比较好的算法。。?我不是
: 业内的,不是特懂
: 不过感觉上次群里有人说的按照bigram频数来判similarity似乎是一个不错的办法
: 所以1)是不是应该先map-reduce做bigram count,视情况整合低频的bigram,然后按照
: bigram count建立一个排序,再次用map-reduce排序?1 million本书,就算bigram两
: 两比较消耗很大,如果算法设计得好应该也不会比terasort慢吧。。。
:
: file
: one

f*********m
发帖数: 726
9
每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书?
file
one
T********3
发帖数: 3
10
edit distance 那得多大计算量啊

【在 f*********m 的大作中提到】
: 每两本书用edit distance,距离小于10%min(book1, book2)就认为是同一本书?
: file
: one

相关主题
雅虎面经能在这里问个算法题目么?
bloomberg intern 面经,已挂,求板上诸位大神refer个internbloomberg已挂
G家电面,已挂amazon面经,已挂。
进入JobHunting版参与讨论
c********s
发帖数: 817
11
Bless!
y*******o
发帖数: 6632
12
我脚的先比directory size排除不同的
然后是file count排除不同的
file count 一样的,比file size,one by one
95% file size一样的,随机抽几个file 比内容, 如果内容大概一样就是一本书了

【在 K********y 的大作中提到】
: 这个例子里每本书的页数是准确的,每页的词数可能有一点偏差。或许可以先给每本书
: 整理一个每页词数的数组,10^6本书按页数分bucket,然后同一个bucket里两两比较算
: 内积或者root mean square error?相似的书可以进一步逐词对照比较。

p******m
发帖数: 544
13
一般的书不是都有关于多少页的信息么?
那么OCR TEXT的结果中间应该也有这个信息了,那么首先可以根据这个大概的找到那些
folder里面的书的页数在这个范围呢。
在这个小范围内按页面顺序抽取一些页面做OCR,与OCR TEXT结果算WER,取top应该就
差不多了吧。

【在 y*******o 的大作中提到】
: 我脚的先比directory size排除不同的
: 然后是file count排除不同的
: file count 一样的,比file size,one by one
: 95% file size一样的,随机抽几个file 比内容, 如果内容大概一样就是一本书了

w******8
发帖数: 1078
14
bless
M*********r
发帖数: 70
15
Bless!

file
one

【在 L****Y 的大作中提到】
: 申请的Fulltime, G, F都已挂。半年后再来。
: F一面了3道题后挂,前2道coding题目应该比较常见, 第三道coding题见这:
: http://www.mitbbs.com/article_t0/JobHunting/32364859.html
: G两次后挂,每次都有设计题。coding题目反而比较简单(一次关于frequency
: generation,一次关于BST),现发设计题:
: 1) -- 1 million scanned books. One book == 1 directory, each page is a file
: in the directory
: -- have OCR text for every page
: -- no scanning mistakes: no skipped pages, no duplicate pages
: OCR word error rate is 5%. Misrecognitions, two words recognized as one, one

1 (共1页)
进入JobHunting版参与讨论
相关主题
F昂赛面经,已挂问个海量数据处理问题
FB data scientist 一面面经(已挂)雅虎面经
报个上周L家的onsite,已挂。继续为第6个onsite准备bloomberg intern 面经,已挂,求板上诸位大神refer个intern
亚麻面筋--已挂G家电面,已挂
问一道google统计句子相似度的问题能在这里问个算法题目么?
这面经题怎么用动态规划做呢?bloomberg已挂
弱问一道G家电面题amazon面经,已挂。
这个题怎么做啊?发bloomberg面经 [电面,目测已挂,赞人品]
相关话题的讨论汇总
话题: ocr话题: coding话题: 已挂话题: bless话题: file